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keras-cn 

本 项 目 由 BigMoyan 于 2016-4-29 发 起 ， 旨 在 建立 一 个 keras.io 的 中 文 版 文档 ， 并 提 
供 更 多 用 户 友好 的 支持 与 建议 。 

本 项 目 目前 已 完成 2.Xx 上 版本， 文档 网 址 为 keras-cn 


如 果 你 在 使 用 keras 和 keras-cn 的 过 程 中 有 任何 问题 ， 请 发 在 issue 中 ， 我 会 定时 检 
查 和 回复 ， 在 issue 中 你 也 可 以 和 志同道合 的 好 基 友 们 一 起 聊天 ~ 


项 目 基于 Mkdocs 生 成 静态 网 页 ， 如 果 你 想 为 文档 做 出 贡献 ， 请 使 用 Markdown 编 写 
文档 并 遵守 以 下 约定 。 

0. 字 体 闫 色 

保持 默认 的 字体 颜色 和 字号 ， 锚 点 的 颜色 为 默认 ， 超 链接 的 颜色 为 默认 

当 使 用 «a name='something'></a> 来 设置 锚 点 时 ， 可 能 引起 字体 颜色 改变 ， 如 
RERET > EBS fontlZoE FA > Ri FRA E #404040 

1. 标 题 级 别 

页 面 大 标题 为 一 级 ， 一 般 每 个 文件 只 有 一 个 一 级 标题 # 页 面 内 的 小 节 是 二 级 标题 
HH 小 节 的 小 节 ， 如 examples 里 各 个 example 是 三 级 标题 HHH 

2. 代 码 块 规则 

成 块 的 代码 使 用 


ANN 


python 


code 


的 形式 显 式 指明 PP 3848 A code " 8976 48 9] 


3. 超 链接 
链接 到 本 项 目 其 他 页 面 的 超 链 接 使 用 相对 路 径 ， 一 个 例子 是 [<font 


color='#FFQ000'>text</font>](../models/about_model.md) 链接 到 其 他 外 
站 的 链接 形式 与 此 相同 ， 只 不 过 圆 括 号 中 是 绝对 地 址 


4.4% 


图 片 保存 在 docs/images 中 ， 插 入 的 例子 是 : 


![text](../images/image_name.png) 


5. 分 割 线 

每 个 二 级 标题 之 间 使 用 *** 产生 一 个 分 割 线 
参考 网 站 

Markdown 简明 教程 


Markdown 


MkDocs 中 文教 程 


MkDocs 


Keras 文 档 
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感谢 参与 | 


Introduction 


Keras: 基 于 Theano 和 TensorFlow 的 深度 学 习 
E 


这 就 是 Keras 


Keras 是 一 个 高 层 神经 网 络 API， ee pe 写 而 成 并 基 Tensorflow 或 
Theano ° Keras 为 支持 快速 实验 而 生 ， 能 够 把 你 的 idea 迅 速 转换 为 结果 ， 如 果 你 有 
如 下 需求 ， 请 选择 Keras : 


e 简易 和 快速 的 原型 设计 (keras 具 有 高 度 模 块 化 ， 极 简 ， 和 可 扩充 特性 ) 
e 支持 CNN 和 RNN ， 或 二 者 的 结合 
e 无 终 CPU 和 GPU 切换 


Keras 适 用 的 Python 版 本 是 : Python 2.7-3.5 
Keras 的 设计 原则 是 
e 用 户 友 好 : Keras 是 为 人 类 而 不 是 天 顶 星人 设计 的 APIl。 用 户 的 使 用 体验 始终 是 
我 们 考虑 的 首要 和 中 心 内 容 。Keras 遵 循 减少 认 知 困难 的 最 佳 实践 : Keras 提 供 
一 致 而 简洁 的 AP| ， 能 够 极 大 减少 一 般 应 用 下 用 户 的 工作 量 ， 同 时 ，Keras 提 
供 清 晰 和 具有 实践 意义 的 bug 反 馈 。 
e 模块 性 : 模型 可 理解 为 一 个 层 的 序列 或 数据 的 运算 图 ， 完 全 可 配置 的 模块 可 以 
用 最 少 的 代价 自由 组 合 在 一 起 。 具 体 而 言 ， 网 络 层 、 损 失 郊 数 、 优 化 器 、 初 始 
化 策略 、 激 活 函 数 、 正 则 化 方法 都 是 独立 的 模块 ， 你 可 以 使 用 它们 来 构建 自己 
的 模型 。 
e 多 扩展 性 : 添加 新 模块 超级 容易 ， 只 需要 仿照 现 有 的 模块 编写 新 的 类 或 函数 即 
可 。 创 建新 模块 的 便利 性 使 得 Keras 更 适合 于 先进 的 研究 工作 。 


e 与 Python 协作 : Keras 没 有 单独 的 模型 配置 文件 类 型 (作为 对 比 ，caffe 有 ) ， 
模型 由 python 代 码 描述 ， 使 其 更 紧凑 和 更 易 debug， 并 提供 了 扩展 的 便利 性 。 


关于 Keras-cn 


本 文档 是 Keras 文 档 的 中 文 版 ， 包 括 keras.io 的 全 部 内 容 ， 以 及 更 多 的 例子 、 解 释 和 
建议 

现在 ，keras-cn 的 版 本 号 将 简单 的 跟随 最 新 的 keras release 版 本 

由 于 作者 水 平和 研究 方向 所 限 ， 无 法 对 所 有 模块 都 非常 精通 ， 因 此 文档 中 不 可 避免 
的 会 出 现 各 种 错误 、 中 漏 和 不 足 之 处 。 如 果 您 在 使 用 过 程 中 有 任何 意见 、 建 议和 疑 
问 ， 欢 迎 发 送 邮 件 到 moyan_work@foxmail.com 与 我 取得 联系 。 

您 对 文档 的 任何 贡献 ， 包 括 文档 的 翻译 、 查 缺 补漏 、 概 念 解 释 、 发 现 和 修改 问题 、 
贡献 示例 程序 等 ， 均 会 被 记录 在 致谢 ， 十 分 感谢 您 对 Keras 中 文 文档 的 贡献 ! 

如 果 你 发 现 本 文档 缺失 了 官方 文档 的 部 分 内 容 ， 请 积极 联系 我 补充 。 

本 文档 相对 于 原文 档 有 更 多 的 使 用 指导 和 概念 洪 清 ， 请 在 使 用 时 关注 文档 中 的 
Tips， 特 别 的 ， 本 文档 的 额外 模块 还 有 : 


e Keras 新 手指 南 : 我 们 新 提供 了 "Keras 新 手指 南 " 的 页 面 ， 在 这 里 我 们 对 Keras 
进行 了 感性 介绍 ， 并 简单 介绍 了 Keras 配 置 方法 、 一 些小 知识 与 使 用 陷阱 ， 新 
手 在 使 用 前 应 该 先 阅 读本 部 分 的 文档 。 

e Keras 资 源 : 在 这 个 页 面 ， 我 们 罗列 一 些 Keras 可 用 的 资源 ， 本 页 面 会 不 定期 更 
新 ， 请 注意 关注 

e 深度 学 习 与 Keras : 位 于 导航 栏 最 下 方 的 该 模块 翻译 了 来 自 Keras 作 者 博客 
keras.io 和 其 他 Keras 相 关 博 客 的 文章 ， 该 栏目 的 文章 提供 了 对 深度 学 习 的 理解 
和 大 量 使 用 Keras 的 例子 ， 您 也 可 以 向 这 个 栏目 投稿 。 所 有 的 文章 均 在 醒目 位 
置 标志 标明 来 源 与 作者 ， 本 文档 对 该 栏目 文章 的 原文 不 具有 任何 处 置 权 。 如 您 
BERE’ HR AAA (moyan_work@foxmail.com) 删除 。 


当前 版 本 与 更 新 
如 果 你 发 现 本 文档 提供 的 信息 有 误 ， 有 两 种 可 能 : 
e 你 的 Keras 版 本 过 低 : 记 住 Keras 是 一 个 发 展 迅速 的 深度 学 习 框 架 ， 请 保持 你 的 
Keras 与 官方 最 新 的 release 版 本 相符 
e 我 们 的 中 文 文档 没有 及 时 更 新 : 如 果 是 这 种 情况 ， 请 发 邮件 给 我 ， 我 会 尽快 更 
新 


目前 文档 的 版 本 号 是 2.0.4， 对 应 于 官方 的 2.0.4 release 版 本 , 本 次 更 新 的 主要 内 容 


e 文档 全 面 升 级 为 Keras2， 绝 大 多 数 API 均 得 到 和 更新， 请 及 时 查看 。 对 于 Keras 1 
的 用 户 ， 请 从 github 下 载 本 文档 源 代码 ， 在 legacy 中 将 Markdown 文 件 生成 为 
pdf 查看 ， 同 时 如 果 哪 位 同学 做 了 keras1.2.2 文 档 的 pdf 版 也 请 发 邮件 告诉 我 


e 新 增 模 块 “keras 新 手指 南 ”， 交 请 关注 
e 补充 了 原文 档 中 缺失 ， 但 源 代码 中 确实 可 用 的 类 和 函数 
e 重新 整理 了 文档 风格 和 栏目 ， 使 得 文档 更 容易 阅读 ， 改 变 了 一 些 词 的 译 法 


目前 ，“ 深 度 学 习 与 Keras” 一 节 中 的 示例 代码 尚未 调整 到 Keras QW A > HLA IE 


e 如 果 想 查看 Keras1 和 Keras2 的 API 变 动 ， 请 访问 这 里 


注意 ，keras 在 github 上 的 master 往 往 要 高 于 当前 的 release 版 本 ， 如 果 你 从 源码 编 
译 keras， 可 能 某 些 模块 与 文档 说 明 不 相符 ， 请 以 官方 Github 代 码 为 准 


快速 开始 : 30s L+Keras 

Keras 的 核心 数据 结构 是 “模型 "， 模 型 是 一 种 组 织 网 络 层 的 方式 。 Keras 中 主要 的 模 
型 是 Sequential 模 型 ，Sequential 是 一 系列 网 络 层 按 顺序 构成 的 栈 。 你 也 可 以 查看 
HARM RE TARE RRA 

Sequential #! Je F 


from keras.models import Sequential 


model = Sequential() 


将 一 些 网 络 层 通过 .add() ERR’ MAMI — ER: 


from keras.layers import Dense, Activation 


model.add(Dense(units=64, input_dim=100) ) 
model.add(Activation("relu")) 

model .add(Dense(units=10) ) 
model.add(Activation("softmax")) 


完成 模型 的 搭建 后 ， 我 们 需要 使 用 .compile() 方法 来 编译 模型 : 


model.compile(loss-'categorical crossentropy', optimizer-'sgd', 
metrics-['accuracy']) 


编译 模型 时 必须 指明 损失 函数 和 优化 器 ， 如 果 你 需要 的 话 ， 也 可 以 自己 定制 损失 元 
数 。Keras 的 一 个 核心 理念 就 是 简明 多 用 同时 ， 保 证 用 户 对 Keras 的 绝对 控制 力度 ， 
用 户 可 以 根据 自己 的 需要 定制 自己 的 模型 、 网 络 层 ， 甚 至 修改 源 代 码 。 


from keras.optimizers import SGD 
model.compile(loss-'categorical crossentropy', optimizer-SGD(lr- 
0.01, momentum=0.9, nesterov-True)) 


完成 模型 编译 后 ， 我 们 在 训练 数据 上 按 batch 进 行 一 定 次 数 的 先 代 来 训练 网 络 


model.fit(x_train, y_train, epochs=5, batch_size=32) 


当然 ， 我 们 也 可 以 手动 将 一 个 个 batch 的 数据 送 入 网 络 中 训练 ， 这 时 候 需 要 使 用 : 


model.train_on_batch(x_batch, y_batch) 


随后 ， 我 们 可 以 使 用 一 行 代码 对 我 们 的 模型 进行 评估 ， 看 看 模型 的 指标 是 否 满 足 我 
们 的 要 求 : 


loss and metrics = model.evaluate(x test, y test, batch_size=128 


) 


或 者 ， 我 们 可 以 使 用 我 们 的 模型 ， 对 新 的 数据 进行 预测 : 


classes = model.predict(x_test, batch_size=128) 


SIE—PD PAAR ERA AXE > RiVAA RM > word2vect4RA Z5 3526 3X ZA 
快 。 支 撑 深 度 学 习 的 基本 想法 本 就 是 简单 的 ， 现 在 让 我 们 把 它 的 实现 也 变 的 简单 起 
来 ! 


为 了 更 深入 的 了 解 Keras， 我 们 建议 你 查看 一 下 下 面 的 两 个 tutorial 


e 快速 开始 Sequntial 模 型 
e 快速 开始 函数 式 模 型 


还 有 我 们 的 新 手 教程 ， 虽 然 是 面向 新 手 的 ， 但 我 们 阅读 它们 总 是 有 益 的 : 
e Keras 新 手指 南 


在 Keras 代 码 包 的 examples 文 件 夹 里 ， 我 们 提供 了 一 些 更 高 级 的 模型 : 基于 记忆 网 
络 的 问答 系统 、 基 于 LSTM 的 文本 的 文本 生成 等 。 


安装 
Keras 使 用 了 下 面 的 依赖 包 : 
e numpy * scipy 
e pyyaml 
e HDF5, h5py (可 选 ， 仅 在 模型 的 save/load 函 数 中 使 用 ) 
e. 如 果 使 用 CNN 的 推荐 安装 cuDNN 
当 使 用 TensorFlow 为 后 端 时 : 
e TensorFlow 
当 使 用 Theano 作 为 后 端 时 : 
e Theano 
“后 端 ?翻译 自 backend， 指 的 是 Keras 依 赖 于 完成 底层 的 张 量 运算 的 软件 包 。 


安装 Keras 时 ， 请 cd 到 Keras 的 文件 夹 中 ， 并 运行 下 面 的 安装 命令 : 


sudo python setup.py install 


你 也 可 以 使 用 PyPl 来 安装 Keras 


sudo pip install keras 


详细 的 Windows 和 Linux 安 装 教程 请 参考 “Keras 新 手指 南 ” 中 给 出 的 安装 教程 ， 特 
别 鸣谢 SCP-173 编 写 了 这 些 教程 


在 Theano 和 TensorFlow 间 切换 


Keras 默 认 使 用 TensorFlow 作 为 后 端 来 进行 张 量 操 作 ， 如 需 切 换 到 Theano， 请 查看 
这 里 


技术 支持 


你 可 以 在 下 列 网 址 提问 或 加 入 Keras 开 发 讨论 : 


e Keras Google group 
e Keras Slack channel, 点 击 这 里 获得 邀请 . 


你 也 可 以 在 Github issues 里 提问 或 请 求 新 特性 。 在 提问 之 前 请 确保 你 阅读 过 我 们 的 


E OE 
日 可 


另外 ， 对 于 习惯 中 文 的 用 户 ， 我 们 推荐 在 " 集 智 "平台 提问 ， 该 平台 由 Kaiser 等 搭 
建 ， 支 持 在 线 代码 运行 环境 ， 我 本 人 会 经 常 访问 该 网 站 解答 问 是 


最 后 ， 我 们 也 欢迎 同学 们 加 我 们 的 QQ 群 119427073 进 行 讨论 (洪水 和 灌水 会 被 T， 
入 群 说 明 公 司 /学 校 - 职 位 /年 级 ) 


小 额 赞助 


如 果 你 觉得 本 文档 对 你 的 研究 和 使 用 有 所 帮助 ， 欢 迎 扫 下 面 的 二 维 码 对 作者 进行 小 
额 赞 助 ， 以 鼓励 作者 进一步 完善 文档 内 容 ， 提 高 文档 质量 。 同 时 ， 不 妨 为 本 文档 的 
github 加 颗 星 哦 





keras 新 手指 南 


些 基 本 概念 


在 开始 学 习 Keras 之 前 ， 我 们 希望 传递 一 些 关 于 Keras， 关 于 深度 学 习 的 基本 概念 和 
技术 ， 我 们 建议 新 手 在 使 用 Keras 之 前 浏览 一 下 本 页 面 提 到 的 内 容 ， 这 将 减少 你 学 
3 v 85 E] 


符号 计算 


Keras 的 底层 库 使 用 Theano 或 TensorFlow， 这 两 个 库 也 称 为 Keras 的 后 端 。 无 论 是 
Theano 还 是 TensorFlow， 都 是 一 个 “符号 式 ” 的 库 。 


因此 ， 这 也 使 得 Keras 的 编程 与 传统 的 Python 代码 有 所 差别 。 笼 统 的 说 ， 符 号 主义 
的 计算 首先 定义 各 种 变量 ， 然 后 建立 一 个 "计算 图 "， 计 算 图 规定 了 各 个 变量 之 间 的 
计算 关系 。 建 立 好 的 计算 图 需要 编译 以 确定 其 内 部 细节 ， 然 而 ， 此 时 的 计算 图 还 是 
一 个 “ 空 壳 子 ”"， 里 面 没有 任何 实际 的 数据 ， 只 有 当 你 把 需要 运算 的 输入 放 进 去 后 ， 
才能 在 整个 模型 中 形成 数据 流 ， 从 而 形成 输出 值 。 


就 像 用 管道 搭建 供水 系统 ， 当 你 在 拼 水 管 的 时 候 ， 里 面 是 没有 水 的 。 只 有 所 有 的 管 
子 都 接 完 了 ， 才 能 送水 。 


Keras 的 模型 搭建 形式 就 是 这 种 方法 ， 在 你 搭建 Keras 模 型 完毕 后 ， 你 的 模型 就 是 一 
个 空 壳 子 ， 只 有 实际 生成 可 调用 的 函数 后 (K.function ) ， 输 入 is > JU RA 
正 的 数据 流 © 


使 用 计算 图 的 语言 ， 如 Theano， 以 难以 调试 而 闻名 ， 当 Keras 的 Debug 进 入 Theano 
这 个 层次 时 ， 往 往 也 令 人 头痛 。 没 有 经 验 的 开发 者 很 难 直 观 的 感受 到 计算 图 到 底 在 
干 些 什么 。 尽 管 很 让 人 头痛 ， 但 大 多 数 的 深度 学 习 框 架 使 用 的 都 是 符号 计算 这 一 套 
方法 ， 因 为 符号 计算 能 够 提供 关键 的 计算 优化 、 自 动 求 导 等 功能 。 


我 们 建议 你 在 使 用 前 稍微 了 解 一 下 Theano 或 TensorFlow，Bing/Google 一 下 即 可 。 


张 重 


张 量 ， 或 tensor， 是 本 文档 会 经 常 出 现 的 一 个 词汇 ， 在 此 稍 作 解释 。 


PARAM AMEAT RRA o GE VUE MEX HE EEGA REOR 
们 用 张 量 来 表示 广泛 的 数据 类 型 。 


规模 最 小 的 张 量 是 0 阶 张 量 ， 即 标量 ， 也 就 是 一 个 数 。 
当 我 们 把 一 些 数 有 序 的 排列 起 来 ， 就 形成 了 1 阶 张 量 ， 也 就 是 一 个 向 量 
如 果 我 们 继续 把 一 组 向 量 有 序 的 排列 起 来 ， 就 形成 了 2 阶 张 量 ， 也 就 是 一 个 矩阵 


把 矩阵 探 起 来 ， 就 是 3 阶 张 量 ， 我 们 可 以 称 为 一 个 立方 体 ， 具 有 3 个 颜色 通道 的 彩色 
图 片 就 是 一 个 这 样 的 立方 体 


把 立方 体 探 起 来 ， 好 吧 这 次 我 们 真 的 没有 给 它 起 别名 了 ， 就 叫 4 阶 张 量 了 ， 不 要 去 
试图 想像 4 阶 张 量 是 什么 样子 ， 它 就 是 个 数学 上 的 概念 。 

张 量 的 阶 数 有 时 候 也 称 为 维度 ， 或 者 轴 ， 轴 这 个 词 翻 译 自 英 文 axis。 壁 如 一 个 矩阵 
[[1,2],[3,4]， 是 一 个 2 阶 张 量 ， 有 两 个 维度 或 轴 ， 沿 着 第 0 个 轴 (为 了 与 python 的 计 
数 方式 一 致 ， 本 文档 维度 和 轴 从 0 算 起 ) 你 看 到 的 是 [1,2] ，[3,4] 两 个 向 量 ， 沿 着 第 1 
个 轴 你 看 到 的 是 [1,3]，[2,4] 两 个 向 量 。 


要 理解 “ 沿 着 某 个 轴 ? 是 什么 意思 ， 不 妨 试 着 运行 一 下 下 面 的 代码 : 
import numpy as np 
a = np.array([[1,2],[3,4]]) 
sumo = np.sum(a, axis=0) 


sumi = np.sum(a, axis=1) 


print Sumo 
print sumi 


关于 张 量 ， 目 前 知道 这 么 多 就 足够 了 。 事 实 上 我 也 就 知道 这 么 多 


data format 


这 是 一 个 无 可 奈何 的 问题 ， 在 如 何 表 示 一 组 彩色 图 片 的 问题 上 ， Theanga 
TensorFlow 发 生 了 分 此 ，'th' 模 式 ， 也 即 Theano 模 式 会 把 100 张 RGB 三 通道 的 
16x32 ( 高 为 16 宽 为 32) 彩色 图 表示 为 下 面 这 种 形式 (100,3,16,32) ，Caffe 采 取 


的 也 是 这 种 方式 。 第 0 个 维度 是 样本 维 ， 代 表 样 本 的 数目 ， 第 1 个 维度 是 通道 维 ， 代 
RA CMBR SMA MAF T » X Fhtheano US hg Z3 AAR A ik o Fk 
A“channels_first” > Bp 38 i$ 28 3E RT © 


而 TensorFlow， 的 表达 形式 是 (100,16,32,3) ， 即 把 通道 维 放 在 了 最 后 ， 这 种 数据 
组 织 方式 称 为 “channels_last”。 


Keras 默 认 的 数据 组 织 形式 在 ~/.keras/keras.json 中 规定 ， 可 查看 该 文件 
eae data_format 一 项 查看 ， 也 可 在 ase + i 3t K.image_data_format() $ 2 
> 请 在 网 络 的 训练 和 测试 中 保持 维度 顺序 一 致 。 


Re He ER > WN ES GS? 


BH AA 


</font> </a> 
HH KAA FAT HS ESR AAT J > PPAR BBUF 


在 Keras 0.x 中 ， 模 型 其 实 有 两 种 ， 一 种 叫 Sequential， 称 为 序 贯 模型 ， 也 就 是 单 输 
入 单 输出 ， 一 条 路 通 到 底 ， 层 与 层 之 间 只 有 相 令 关系 ， 跨 层 连 接 统统 没有 。 这 种 模 
ee A QM de ape Md 
支持 多 输入 多 输出 ， 层 与 层 之 间 想 怎么 连 怎 么 连 ， 但 是 编译 速度 慢 。 可 以 看 到 ， 
Sequential 其 ae AOL o 


在 Keras1 和 Keras2 中 ， 图 模型 被 移 除 ， 而 增加 了 了 “functional model API” > 3x 4^ X 
西 ， 更 加 强调 了 Sequential 是 特殊 情况 这 一 点 。 一 般 的 模型 就 称 为 Model， 然 后 如 
果 你 要 用 简单 的 Sequential，OK， 那 还 有 一 个 快捷 方式 Sequential 。 


由 于 functional model APl 在 使 用 时 利用 的 是 “函数 式 编程 "的 风格 ， 我 们 这 里 将 其 译 
为 函数 式 模型 。 总 而 言 之 ， 只 要 这 个 东西 接收 一 个 或 一 些 张 量 作为 输入 ， REA 出 
的 也 是 一 个 或 一 些 张 量 ， 那 不 管 它 是 什么 鬼 ， 统 统 都 称 作 “ 模 型 * 。 


batch 


</font></a> 


这 个 概念 与 Keras 无 关 ， 老 实 讲 不 应 该 出 现在 这 里 的 ， 但 是 因为 它 频繁 出 现 ， 而 且 
不 了 解 这 个 技术 的 话 看 函数 说 明 会 很 头痛 ， 这 里 还 是 简单 说 一 下 。 


RAE DARA He TRH RTE ERY KR S HAM APA HX © 


第 一 种 ， 遍 历 全 部 数据 集 算 一 次 损失 函数 ， 然 后 算 函 数 对 各 个 参数 的 梯度 ， 更 新 梯 
度 。 这 种 方法 每 更 新 一 次 参数 都 要 把 数据 集 里 的 所 有 样本 都 看 一 遍 ， 计 算 量 开销 
大 ， 计 算 速 度 慢 ， 不 支持 在 线 学 习 ， 这 称 为 Batch gradient descent， 批 梯度 下 降 。 


另 一 种 ， 每 看 一 个 数据 就 算 一 下 损失 函数 ， 然 后 求 梯度 更 新 参数 ， 这 个 称 为 随机 梯 
度 下 降 ，stochastic gradient descent 。 这 个 方法 速度 比较 快 ， 但 是 收敛 性 能 不 太 
好 ， 可 能 在 最 优点 附近 晃 来 晃 去 ，hit 不 到 最 优点 。 两 次 参数 的 更 新 也 有 可 能 互相 抵 
消 掉 ， 造 成 目标 函数 震荡 的 比较 剧烈 。 


为 了 克服 两 种 方法 的 缺点 ， 现 在 一 般 杀 用 的 是 一 种 折 中 手段 ，mini-batch gradient 
decent， 人 小 批 的 梯度 下 降 ， 这 种 方法 把 数据 分 为 若干 个 批 ， 按 批 来 更 新 参数 ， 这 
样 ， 一 个 批 中 的 一 组 数据 共同 决定 了 本 次 梯度 的 方向 ， 下 降 起 来 就 不 容易 跑 偏 ， 减 
少 了 随机 性 。 另 一 方面 因为 批 的 样本 数 与 整个 数据 集 相 比 小 了 很 多 ， 计 算 量 也 不 是 
很 大 。 


基本 上 现在 的 梯度 下 降 都 是 基于 mini-batch 的 ， 所 以 Keras 的 模块 中 经 常会 出 现 
batch_size， 就 是 指 这 个 。 


Wig 3,— 4] * Keras F A 554516 S SGD X stochastic gradient descent 的 缩写 ， 但 不 
代表 是 一 个 样本 就 更 新 一 回 ， 还 是 基于 mini-batch 的 。 


epochs 
BAY REAR MERE ENA 1H FY HES HY... 简单 说 ，epochs 指 的 就 是 


训练 过 程 中 数据 将 被 “ 轮 " 多 少 次 ， 就 这 样 。 


对 新 于 友好 的 小 说 明 


虽然 这 不 是 我 们 应 该 做 的 工作 ， 但 为 了 体现 本 教程 对 新 手 的 友好 ， 我 们 在 这 里 简单 
列 一 下 使 用 keras 需 要 的 先行 知识 。 稍 有 经 验 的 研究 者 或 开发 者 请 忽略 本 节 ， 对 于 
新 手 ， 我 们 建议 在 开始 之 前 ， 确 保 你 了 解 下 面 提 到 的 术语 的 基本 概念 。 如 果 你 确实 
对 菜 项 内 容 不 了 解 ， 请 首先 查阅 相关 资料 ， 以 免 在 未 来 使 用 中 带 来 困惑 。 


关于 Python 


显然 你 应 对 Python 有 一 定 的 熟悉 ， 包 括 其 基本 语法 ， 数 据 类 型 ， 语 言 特 点 等 ， 
如 果 你 还 不 能 使 用 Python 进行 程序 设计 ， 或 不 能 避免 Python 中 常见 的 一 些小 陷 
阱 ， 或 许 你 应 该 先 去 找 个 教程 补充 一 下 。 这 里 推 一 个 快速 学 习 Python 的 教程 序 
雪 峰 的 Python 教程 


你 应 该 有 面向 对 象 的 概念 ， 知 道 类 、 对 象 、 封 装 、 多 态 、 继 承 、 作 用 域 等 术语 


的 含义 。 


e 你 应 该 对 Python 的 科学 计算 包 和 深度 学 习 包 有 一 定 了 解 ， 这 些 包 和 包含 但 不 限于 
numpy, scipy, scikit-learn, pandas... 


e 特别 地 ， 你 需要 了 解 什么 是 生成 器 函数 (generator) ， 以 及 如 何 编写 生成 器 函 
数 。 什 么 是 匿名 函数 (lambda) 


关于 深度 学 习 

由 于 Keras 是 为 深度 学 习 设 计 的 工具 ， 我 们 这 里 只 列举 深度 学 习 中 的 一 些 基 本 概 
念 。 请 确保 你 对 下 面 的 概念 有 一 定理 解 。 

e 有 监督 学 习 ， 无 监督 学 习 ， 分 类 ， 聚 类 ， 回 归 

。 神经 元 模型 ， 多 层 感知 器 ，BP 算 法 

e BRRR (MARR) ， 激 活 函 数 ， 梯 度 下 降 法 

e 全 连接 网 络 、 卷 积 神经 网 络 、 递 归 神 经 网 络 

e 训练 集 ， 测 试 集 ， 交 叉 验 证 ， 欠 拟 合 ， 过 拟 合 

e 数据 规范 化 


e 其 他 我 还 没 想 到 的 东西 ...... 想到 再 补充 


其 他 


其 他 需要 注意 的 概念 ， 我 们 将 使 用 [Tips] 标 注 出 来 ， 如 果 该 概念 反复 出 现 又 比较 重 
要 ， 我 们 会 写 到 这 里 。 就 着 ， 玩 的 愉快 哟 。 


n io) BAe 6a 
c 见 问题 与 解 谷 


Keras FAQ: 常见 问题 


e 如 何 引 用 Keras ? 

e 如 何 使 Keras 调 用 GPU ? 

e 如 何 保存 Keras 模 型 ? 

e. 为 什么 训练 误差 (loss) 比 测试 误差 高 很 多 ? 

e 如 何 获取 中 间 层 的 输出 ? 

e 如 何 利 用 Keras 处 理 起 过 机 器 内 存 的 数据 集 ? 
e 当 验 证 集 的 loss 不 再 下 降 时 ， 如 何 中 断 训练 ? 
e 验证 集 是 如 何 从 训练 集中 分 割 出 来 的 ? 

e 训练 数据 在 训练 时 会 被 随机 洗 乱 吗 ? 

e 如 何在 每 个 epoch 后 记录 训练 /测试 的 loss 和 正确 率 ? 
e 如 何 使 用 状态 RNN (statful RNN) ? 

e 如 何 “ 冻 结 "网 络 的 层 ? 

e 如 何 从 Sequential 模 型 中 去 除 一 个 层 ? 

e 如 何在 Keras 中 使 用 预 训 练 的 模型 

e 如 何在 Keras 中 使 用 HDF5 输 入 ? 

e Keras 的 配置 文件 存储 在 哪里 ? 


如 何 引 用 Keras ? 


</font> </a> 


如 果 Keras 对 你 的 研究 有 帮助 的 话 ， 请 在 你 的 文章 中 引用 Keras。 这 里 是 一 个 使 用 
BibTex 的 例子 
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@misc{chollet2015keras, 
author = {Chollet, François and others}, 
title = {Keras}, 
year = {2015}, 
publisher = {GitHub}, 
journal = {GitHub repository}, 
howpublished = {\url{https://github.com/fchollet/keras}} 


如 何 使 Keras 调 用 GPU ? 
</font> </a> 


如 果 采 用 TensorFlow 作 为 后 端 ， 当 机 器 上 有 可 用 的 GPU 时 ， 代 码 会 自动 调用 GPU 
进行 并 行 计 算 。 如 果 使 用 Theano 作 为 后 端 ， 可 以 通过 以 下 方法 设置 : 


方法 1 : 使 用 Theano 标 记 


在 执行 python 脚 本 时 使 用 下 面 的 命令 : 


THEANO FLAGS-device-gpu,floatX-float32 python my keras script.py 


方法 2 : 设置 .theano 文件 
点 击 这 里 查看 指导 教程 
方法 3 : 在 代码 的 开头 处 手动 设 


置 theano.config.device 和 theano.config.floatx 


import theano 
theano.config.device = 'gpu' 
theano.config.floatX = 'float32' 


如 何 保 存 Keras 模 型 ? 


</font> </a> 
我 们 不 推荐 使 用 pickle 或 cPickle 来 保存 Keras 模 型 


你 可 以 使 用 model.save(filepath) 将 Keras 模 型 和 权重 保存 在 一 个 HDF5 文 件 
中 ， 该 文件 将 包含 


e 模型 的 结构 ， 以 便 重 构 该 模型 

e ae 

e 训练 配置 (损失 函数 ， 优 化 器 等 ) 

e 优化 器 的 状态 ， 以 便于 从 上 次 训练 中 断 的 地 方 开始 


使 用 keras.models.load model(filepath) 来 重新 实例 化 你 的 模型 ， 如 果 文 件 
中 存储 了 训练 配置 的 话 ， 该 函数 还 会 同时 完成 模型 的 编译 


例子 : 
from keras.models import load_model 


model.save('my model.h5') # creates a HDF5 file 'my_model.h5' 
del model # deletes the existing model 


# returns a compiled model 
# identical to the previous one 
model = load model('my model.h5') 


如 果 你 只 是 希望 保存 模型 的 结构 ， 而 不 包含 其 权重 或 配置 信息 ， 可 以 使 用 : 


# Save as JSON 
json_string = model.to_json() 


# save as YAML 
yaml string = model.to yaml() 


o 


这 项 操作 将 把 模型 序列 化 为 json PN 这 些 文件 对 人 而 言 也 是 友好 的 ， 如 果 
需要 的 话 你 甚至 可 以 手动 打开 这 些 文件 并 进行 编辑 


当然 ， 你 也 可 以 从 保存 好 的 json 文 件 或 yaml 文 件 中 载 入 模型 : 


# model reconstruction from JSON: 
from keras.models import model_from_json 
model = model_from_json(json_string) 


# model reconstruction from YAML 
model = model_from_yaml(yaml_string) 


如 果 需 要 保存 模型 的 权重 ， 可 通过 下 面 的 代码 利用 HDF5 进 行 保 存 。 注 意 ， 在 使 用 
前 需要 确保 你 已 安装 了 HDF5 和 其 Python 库 h5py 


model.save weights('my model weights.h5') 


如 果 你 需要 在 代码 中 初始 化 一 个 完全 相同 的 模型 ， 请 使 用 : 


model.load weights('my model weights.h5') 


如 果 你 需要 加 载 权重 到 不 同 的 网 络 结构 《有 些 层 一 样 ) 中 ， 例 如 fine-tune 或 
transfer-learning， 你 可 以 通过 层 名 字 来 加 载 模型 : 


model.load_weights('my_model_weights.h5', by_name=True) 


例如 : 


假如 原 模 型 为 : 
model = Sequential() 
model.add(Dense(2, input_dim=3, name="dense_1i")) 
model.add(Dense(3, name="dense_2")) 


model.save weights(fname) 


# new model 

model - Sequential() 

model.add(Dense(2, input dim-3, name-z"dense 1")) # will be load 
ed 

model.add(Dense(10, name="new_dense")) # will not be loaded 


4 load weights from first model; will only affect the first laye 
r, dense 1. 
model.load weights(fname, by_name=True) 


为 什么 训练 误差 比 测试 误差 高 很 多 ? 


</font> </a> 


一 个 Keras 的 模型 有 两 个 模式 : 训练 模式 和 测试 模式 。 一 些 正则 机 制 ， 如 Dropout * 
L1/L2 正 则 项 在 测试 模式 下 将 不 被 启用 。 


另外 ， 训 练 误差 是 训练 数据 每 个 batch 的 误差 的 平均 。 在 训练 过 程 中 ， 每 个 epoch 起 
始 时 的 batch 的 误差 要 大 一 些 ， 而 后 面 的 batch 的 误差 要 小 一 些 。 另 一 方面 ， 每 个 
epoch 结 束 时 计算 的 测试 误差 是 由 模型 在 epoch 结 束 时 的 状态 决定 的 ， 这 时 候 的 网 
络 将 产生 较 小 的 误差 。 


【Tips】 可 以 通过 定义 回调 函数 将 每 个 epoch 的 训练 误差 和 测试 误差 并 作 图 ， 如 果 
训练 误差 曲线 和 测试 误差 曲线 之 间 有 很 大 的 空隙 ， 说 明 你 的 模型 可 能 有 过 拟 合 的 问 
题 。 当 然 ， 这 个 问题 与 Keras 无 关 。 


如 何 获 取 中 间 层 的 输出 ? 


</font> </a> 


一 种 简单 的 方法 是 创建 一 个 新 的 Model ， 使 得 它 的 输出 是 你 想 要 的 那个 输出 


from keras.models import Model 


model = ... # create the original model 


layer_name = 'my_layer' 
intermediate_layer_model = Model(input=model.input, 


output=model.get_layer(layer_na 


me) .output ) 


intermediate_output = intermediate_layer_model.predict(data 


此 外 ， 我 们 也 可 以 建立 一 个 Keras 的 函数 来 达到 这 一 目的 : 


from keras import backend as K 


# with a Sequential model 


get 3rd layer output = K.function([model.layers[6].input], 


[model.layers[3].output]) 


layer output = get 3rd layer output([X])[69] 


当然 ， 我 们 也 可 以 直接 编写 Theano 和 TensorFlow 的 函数 来 完成 这 件 事 


注意 ， 如 果 你 的 模型 在 训练 和 测试 两 种 模式 下 不 完全 一 致 ， 例 如 你 的 模型 中 含有 


Dropout% > 43,3545 (BatchNormalization) 层 等 组 件 ， 你 需要 在 函数 中 传递 一 个 


learning_phase 的 标记 ， 像 这 样 : 


get 3rd layer output = K.function([model.layers[0].input, 
ning phase()], 


K.lear 


[model.layers[3].output]) 


# output in test mode = 0 
layer_output = get_3rd_layer_output([X, 0])[0] 


# output in train mode = 1 
layer output = get 3rd layer output([X, 1])[0] 


如 何 利 用 Keras 处 理 超过 机 器 内 存 的 数据 集 ? 
</font> </a> 


可 以 使 用 model.train on batch(X,y) 和 model.test on batch(X,y) 。 请 参 
考 模型 


另外 ， 也 可 以 编写 一 个 每 次 产生 一 个 batch 样 本 的 生成 器 函数 ， 并 调 
用 model.fit generator(data generator, samples_per_epoch, 
nb epoch) 进行 训练 


这 种 方式 在 Keras 代 码 包 的 example 文 件 夹 下 CIFAR10 例 子 里 有 示范 ， 也 可 点 击 这 
里 在 github 上 浏览 。 


当 验 证 集 的 loss 不 再 下 降 时 ， 如 何 中 断 训练 ? 
</font> </a> 
可 以 定义 EarlyStopping 来 提前 终止 训练 

from keras.callbacks import EarlyStopping 


early_stopping = EarlyStopping(monitor='val_loss', patience=2) 
model.fit(X, y, validation_split=0.2, callbacks-[early stopping] 


验证 集 是 如 何 从 训练 集中 分 割 出 来 的 ? 


</font> </a> 


to RHE model.fit 中 设置 validation spilt 的 值 ， 则 可 将 数据 ae 集 和 
验证 集 ， 例 如 ， 设 置 该 值 为 0.1， 则 训练 集 的 最 后 10% 数 据 将 作为 验证 集 ， 设 置 其 他 
数字 同 理 。 注 意 ， 原 数据 在 进行 验证 集 分 割 前 并 没有 被 shuffle， 所 以 这 m 验证 集 


严格 的 就 是 你 输入 数据 最 末 的 x%。 


训练 数据 在 训练 时 会 被 随机 洗 乱 吗 ? 
</font> </a> 


是 的 ， 如 果 model.fit 的 shuffle FRA A > MAM RIERA RMP o K 
3E GEH RIL A A © DAR AE S S epoch ay i 2h v ABS 3 ASL— o 


验证 集 的 数据 不 会 被 洗 乱 


如 何在 每 个 epoch 后 记录 训练 /测试 的 loss 和 正确 
率 了 


</font> </a> 


`` python 
hist = model.fit(X, y, validation_split=0.2) 
print(hist.history) 


如 何 使 用 状态 RNN (statful RNN) ? 


</font> </a> 


batch 85 #746 KA © 


当 使 用 状态 RNN 时 ， 有 如 下 假设 
e 所 有 的 batch 都 具有 相同 数目 的 样本 


e 如 果 xi 和 x2 是 两 个 相 邻 的 batch， 那 么 对 于 任何 i > X2[i] 都 
是 X1[i] 的 后 续 序列 


要 使 用 状态 RNN， 我 们 需要 


e 显 式 的 指定 每 个 batch 的 大 小 。 可 以 通过 模型 的 首 层 参 
数 batch input shape 来 完成 。 batch input shape 是 一 个 整数 tuple > 
例如 (32,10,16) 代 表 一 个 具有 10 个 时 间 步 ， 每 步 向 量 长 为 16， 每 32 个 样本 构成 
一 个 batch 的 输入 数据 格式 。 


e 在 RNN 层 中 ， 设 置 stateful-True 

要 重 置 网 络 的 状态 ， 使 用 : 
e model.reset_states() 来 重 置 网 络 中 所 有 层 的 状态 
e layer.reset_states() 来 重 置 指定 层 的 状态 


例子 : 


X # this is our input data, of shape (32, 21, 16) 
# we will feed it to our model in sequences of length 10 


model = Sequential() 

model.add(LSTM(32, input_shape=(10, 16), batch_size=32, stateful= 
True) ) 

model.add(Dense(16, activation='softmax' )) 


model.compile(optimizer='rmsprop', loss='categorical_crossentrop 
y') 


4 we train the network to predict the 11th timestep given the fi 
GSe Or 

model.train_on_batch(X[:, :10, :], np.reshape(X[:, 10, :], (32, 
16))) 


# the state of the network has changed. We can feed the follow-u 
p sequences: 

model.train_on_batch(X[:, 10:20, :], np.reshape(X[:, 20, :], (32 
, 16))) 


# let's reset the states of the LSTM layer: 
model.reset states() 


4 another way to do it in this case: 
model.layers[0].reset_states() 


[| 


注意 ， predict > fit * train on batch ^ predict classes 等 方法 都 会 
更 新 模型 中 状态 层 的 状态 。 这 使 得 你 可 以 不 但 可 以 进行 状态 网 络 的 训练 ， 也 可 以 进 
行 状态 网 络 的 预测 。 


如 何 “ 冻 结 ” 网 络 的 层 ? 


</font> </a> 


“冻结 ?一 个 层 指 的 是 该 层 将 不 参加 网 络 训练 ， 即 该 层 的 权重 永 不 会 更 新 。 在 进行 
fine-tune 时 我 们 经 常会 需要 这 项 操作 。 在 使 用 固定 的 embedding 层 处 理 文 本 输入 
时 ， 也 需要 这 个 技术 。 


可 以 通过 向 层 的 构造 函数 传递 trainable 参数 来 指定 一 个 层 是 不 是 可 训练 的 ， 
ta: 


frozen layer = Dense(32, trainable=False) 


此 外 ， 也 可 以 通过 将 层 对 得 的 trainable 属性 设 为 True 或 False 来 为 已 经 搭 
建 好 的 模型 设置 要 冻结 的 层 。 在 设置 完 后 ， 需 要 运行 compile 来 使 设置 生效 ， 例 
如 : 


x = Input(shapez(32, )) 
layer - Dense(32) 
layer.trainable - False 
y - layer(x) 


frozen model - Model(x, y) 

4 in the model below, the weights of layer will not be updated 
during training 

frozen model.compile(optimizer-'rmsprop', loss='mse' ) 


layer.trainable - True 

trainable model - Model(x, y) 

4 with this model the weights of the layer will be updated durin 
g training 

4 (which will also affect the above model since it uses the same 
layer instance) 

trainable model.compile(optimizer-'rmsprop', loss='mse' ) 


frozen model.fit(data, labels) # this does NOT update the weigh 

ts of “layer” 

trainable model.fit(data, labels) # this updates the weights of 
"layer? 


如 何 从 Sequential 模 型 中 去 除 一 个 层 ? 
</font> </a> 
可 以 通过 调用 pop) 来 去 除 模型 的 最 后 一 个 层 ， 反 复 调用 n 次 即 可 去 除 模型 后 面 


的 n 个 层 


model = Sequential() 
model.add(Dense(32, activation-'relu', input dim-784)) 
model.add(Dense(32, activation-' relu')) 


print(len(model.layers)) 


model.pop() 
print(len(model.layers)) 


如 何在 Keras 中 使 用 预 训练 的 模型 ? 
</font> </a> 
我 们 提供 了 下 面 这 些 图 像 分 类 的 模型 代码 及 预 训练 权重 : 


e VGG16 

e VGG19 

e ResNet50 
e Inception v3 


可 通过 keras.applications 载 入 这 些 模型 : 
from keras.applications.vggi6 import VGG16 
from keras.applications.vgg19 import VGG19 
from keras.applications.resnet50 import ResNet50 


from keras.applications.inception v3 import InceptionV3 


model = VGG16(weights-'imagenet', include top-True) 


这 些 代码 的 使 用 示例 请 参考 Application 模型 的 文档 


使 用 这 些 预 训 练 模型 进行 特征 抽取 或 fine-tune 的 例子 可 以 参考 此 博客 
VGG 模 型 也 是 很 多 Keras 例 子 的 基础 模型 ， 如 : 


e Style-transfer 
e Feature visualization 
e Deep dream 


如 何在 Keras 中 使 用 HDF5 输 入 ? 


</font> </a> 
你 可 以 使 用 keras.utils 中 的 HDF5Matrix 类 来 读 取 HDF5 输 入 ， 参 考 这 里 
可 以 直接 使 用 HDF5 数 据 库 ， 示 例 

import h5py 

with hS5py.File('input/file.hdf5', 'r') as f: 


X data = f['X data'] 
model.predict(X data) 


Keras 的 配置 文件 存储 在 哪里 ? 


</font> </a> 


所 有 的 Keras 数 据 默 认 存储 在 : 


$HOME/.keras/ 


对 windows 用 户 而 言 ， $HOME 应 替换 为 %USERPROFILE% 


当 Keras 无 法 在 上 面 的 位 置 创建 文件 夹 时 (例如 由 于 权限 原因 ) ， 备 用 的 地 址 
是 /tmp/.keras/ 


Keras 配 置 文件 为 JSON 格 式 的 文件 ， 保 存在 $HOME/ .keras/keras.json ° Rik 
的 配置 文件 长 这 样 : 


"image data format": "channels last", 
"epsilon": 1e-07, 

"floatx": "float32", 

"backend": "tensorflow" 


该 文件 包含 下 列 字 段 : 


e 默认 的 图 像 数 据 格 式 channels last 或 channels first 
e 用 于 防止 除 零 错误 的 epsilon 

e 默认 的 浮 点 数 类 型 

e 默认 的 后 端 


类 似 的 ， 缓 存 的 数据 集 文件 ， 即 由 get file() 下 载 的 文件 ， 默 认 保存 
在 $HOME/.keras/datasets/ 


本 教程 不 得 用 于 任何 形式 的 商业 用 途 ， 如 果 需 要 转载 请 与 作者 SCP-173 联 系 ， 如 果 
发 现 未 经 允许 复制 转载 ， 将 保留 追求 其 法 律 责任 的 权利 。 


关于 计算 机 的 硬件 配置 说 明 


推荐 配置 


如 果 您 是 高 校 学 生 或 者 高 级 研究 人 员 ， 并 且 实 验 室 或 者 个 人 资金 充沛 ， 建 议 您 采用 
如 下 配置 


主板 : X99 型 号 或 Z170 型 号 

CPU: i7-5830K 或 i7-6700K 及 其 以 上 高 级 型 号 

AG: 品牌 内 存 ， 总 容量 32G 以 上 ， 根 据 主板 组 成 4 通道 或 8 通道 

SSD: 品牌 固态 硬盘 ， 容 量 256G 以 上 

显卡 : NVIDIA GTX 1080ti、NVIDIA GTX TITAN ` NVIDIA GTX 1080 ` 
NVIDIA GTX 1070 ` NVIDIA GTX 1060 (顺序 为 优先 建议 ， 并 且 建 议 同 一 显 
卡 ， 可 以 根据 主板 插 模 数量 购买 多 块 ， 例 如 X99 型 号 主板 最 多 可 以 采用 x4 的 显 
卡 ) 

电源 : 由 主机 机 容量 的 确定 ， 一 般 有 显卡 总 容量 后 再 加 200W 即 可 


最 低 配 置 


如 果 您 是 仅仅 用 于 自学 或 代码 调试 ， 亦 或 是 条 件 所 限 仅 采用 自己 现 有 的 设备 进 
行 开 发 ， 那 么 您 的 电脑 至 少 满足 以 下 几 点 : 


CPU : Intel 第 三 代 i5 和 i7 以 上 系列 产品 或 同性 能 AMD 公 司 产品 


AG: 总 容量 4G 以 上 


CPU 说 明 


大 多 数 CPU 目 前 支持 多 核 多 线程 ， 那 么 如 果 您 采用 CPU 加 速 ， 就 可 以 使 用 多 线 
程 运算 。 这 方面 的 优势 对 于 服务 器 CPU 志 强 系列 尤为 关键 


显卡 说 明 


e. 如 果 您 的 显卡 是 非 NVIDIA 公 司 的 产品 或 是 NVIDIA GTX 系 列 中 型 号 的 第 一 个 数 
字 低 于 6 或 NVIDIA 的 GT 系列 ， 都 不 建议 您 采用 此 类 显卡 进行 加 速 计算 ， 例 
如 NVIDIA GT 910 、 NVIDIA GTX 450 等 等 。 

e 如 果 您 的 显卡 为 笔记 本 上 的 GTX 移 动 显卡 (型 号 后 面 带 有 标识 M) ， 那 么 请 您 
惯 重 使 用 显卡 加 速 ， 因 为 移动 版 GPU 容易 发 生 过 热 烧 毁 现 象 。 

e 如 果 您 的 显卡 ， 显 示 的 是 诸如 HD5000 , ATI 5650 等 类 型 的 显卡 ， 那 么 您 
只 能 使 用 CPU 加 速 

e 如 果 您 的 显卡 芯片 为 Pascal 架 构 ( NVIDIA GTX 1080 , NVIDIA GTX 
1070 等 ) ， 您 只 能 在 之 后 的 配置 中 选择 CUDA 8.0 


基本 开发 环境 搭建 


1. Linux 发 行 版 


linux 有 很 多 发 行 版 ， 本 文 强 烈 建 议 读者 采用 新 版 的 Ubuntu 16.04 LTS 一 方面 ， 
对 于 大 多 数 新 手 来 说 Ubuntu 具有 很 好 的 图 形 界 面 ， 与 乐观 的 开源 社区 ; 另 一 方面 ， 
Ubuntu 是 Nvidia 官方 以 及 绝 大 多 数 深 度 学 习 框 架 默 认 开 发 环境 。 个 人 不 建议 使 用 


Ubuntu Community Ask! Developer Design Discourse Hardware Insights Juju Partners Shop More 








TRO HM 云 计 算 ”服务 器 ”桌面 版 ”Ubuntu Kylin ”其 它 下 载 Ubuntu flavours 


FX Ubuntu rfi hx 











Ubuntu 16.04 LTS 


Download the latest version of Ubuntu, for desktop PCs and laptops. LTS stands For 
long-term support — which means five years of free security and maintenance 
updates, guaranteed 


Ubuntu 16.04 LTS release notes @ 


Recommended system requirements 


© 2 GHz dual core processor or better 

2 GB system memory 

25 GB of free hard drive space 

Either a DVD drive or a USB port for the installer media 


Internet access is helpful 


通过 U 瘟 安装 好 后 ， 进 行 初始 化 环境 设置 。 


2. Ubuntu 初始 环境 设置 


# 系统 升级 

>>> Sudo apt update 

>>> Sudo apt upgrade 

# 安装 python 基 础 开发 包 

>>> sudo apt install -y python-dev python-pip python-nose gc 
c g++ git gfortran vim 


e 安装 运算 加 速 库 打开 终端 输入 : 


>>> sudo apt install -y libopenblas-dev liblapack-dev libatl 
as -base-dev 


3. CUDA 开 发 环境 的 搭建 (CPU 加 速 跳 过 ) 


Keras 安 装 和 配置 指南 (Linux) 


3. CUDA 开 发 环境 的 搭建 (CPU 加 速 跳 过 ) 
如 果 您 的 仅仅 采用 cpuz 加 速 ， 可 跳 过 此 步骤 
e 下 载 CUDA8.0 


下 载 地 址 : https://developer.nvidia.com/cuda-downloads 


Select Target Platform @ Related Links 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. CUDA Quick Start Guide 
Release Notes 


" -- EULA 
Operating System Windows Linux Mac OSX 
Online Documentation 
Architecture @ CUDA Toolkit Overview 


Installer Checksums 











Distribution SLES Open Source Packages 
: Legacy CUDA Toolkits 

Version 

Installer Type & 














Download Installer for Linux Ubuntu 16.04 x86_64 


The base installer is available for download below. 





> Base Installer Download (1.9 GB) & 





Installation Instructions: 


1. “sudo dpkg -i cuda-repo-ubuntu1604-8-0-local 8.0.44-1 amdó4.deb' 
2. “sudo apt-get update” 
3. ‘sudo apt-get install cuda 











The CUDA Toolkit contains Open-Source Software. The source code can be found here. 
The checksums for the installer and patches can be found in Installer Checksums. 
For further information, see the Installation Guide for Linux and the CUDA Quick Start Guide. 











>>> sudo dpkg -i cuda-repo-ubuntui1604-8-0-local 8.0.44-1 amd64.d 
eb 

>>> sudo apt update 

>>> sudo apt install cuda 


自动 配置 成 功 就 好 。 


e 将 CUDA 路 径 添加 至 环境 变量 在 终端 输入 : 


>>> sudo gedit /etc/bash.bashrc 
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export CUDA_HOME=/usr/local/cuda-8.0 

export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}} 

export LD_LIBRARY_PATH=/usr/local/cuda-8.0/1ib64${LD_LIBRARY 
_PATH: +: ${LD_LIBRARY_PATH}} 


之 后 source gedit /etc/bash.bashrc 即 可 同样 ， 在 终端 输入: 


>>> sudo gedit -/.bashrc 


在 ,bashrc 中 添加 如 上 相同 内 容 (如 果 您 使 用 的 是 zsh ， 在 -/.zshrc 7& 
加 即 可 ) 


e 测试 在 终端 输入 : 


>>> nvcc -V 


会 得 到 相应 的 nvcc 编 译 器 相应 的 信息 ， 那 么 CUDA 配 置 成 功 了 。 记得 重启 系统 


4. 加 速 库 cuDNN (可 选 ) 

从 官网 下 载 需 要 注册 账号 申请 ， 两 三 天 批准 。 网 盘 搜 索 一 般 也 能 找到 最 新 版 。 
Linux 目 前 就 是 cudnn-8.0-win-x64-v5.1-prod.zip。 下 载 解压 出 来 是 名 为 cuda 的 文件 
X > € dà bin 、include、lib， 将 三 个 文件 夹 复制 到 安装 CUDA 的 地 方 履 盖 对 应 文件 
夹 ， 在 终端 中 输入 : 


>>> sudo cp include/cudnn.h /usr/local/cuda-8.0/include/ 
>>> sudo cp lib64/* /usr/local/cuda-8.0/1ib64/ 
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相关 开发 包 安 装 


在 终端 中 输入 : 


在 终端 中 输入 : 


>>> sudo pip install -U --pre pip setuptools wheel 

>>> sudo pip install -U --pre numpy scipy matplotlib scikit-lear 
n scikit-image 

>>> sudo pip install -U --pre tensorflow-gpu 

# >>> sudo pip install -U --pre tensorflow 

>>> sudo pip install -U --pre keras 


安装 完毕 后 ， 输 入 python ， 然 后 输入 : 


>>> import tensorflow 
>>> import keras 


无 错 输出 即 可 


Keras 中 mnist 数 据 集 测试 
下 载 Keras 开 发 包 


git clone https://github.com/fchollet/keras.git 
cd keras/examples/ 
python mnist_mlp.py 


程序 无 错 进行 ， 至 此 ，keras 安 装 完成 。 


声明 与 联系 方式 


由 于 作者 水 平和 研究 方向 所 限 ， 无 法 对 所 有 模块 都 非常 精通 ， 因 此 文档 中 不 可 避免 
的 会 出 现 各 种 错误 、 玲 涯 和 不 足 之 处 。 如 果 您 在 使 用 过 程 中 有 任何 意见 、 建 议和 妖 
问 ， 欢 迎 发 送 邮 件 到 scp173.cool@gmail.com 与 作者 取得 联系 . 


本 教程 不 得 用 于 任何 形式 的 商业 用 途 ， 如 果 需 要 转载 请 与 作者 或 中 文 文档 作者 联 
系 ， 如 果 发 现 未 经 允许 复制 转载 ， 将 保留 追求 其 法 律 责任 的 权利 。 
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作者 : SCP-173 E-mail : scp173.cool@gmail.com 如 果 您 需要 及 时 得 到 指导 帮 
助 ， 可 以 加 微 信 : SCP173-cool > 酌情 打 赏 即 可 
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这 里 需要 说 明 一 下 ， 笔 者 不 建议 在 Windows 环 境 下 进行 深度 学 习 的 研究 ， 一 方面 是 
因为 Windows 所 对 应 的 框架 搭建 的 依赖 过 多 ， 社 区 设 定 不 完全 ; AAM?’ Linux 
系统 下 对 显卡 支持 、 内 存 释 放 以 及 存储 空间 调整 等 硬件 功能 支持 较 好 。 如 果 您 对 
Linux 环 境 感 到 陌生 ， 并 且 大 多 数 开发 环境 在 Windows 下 更 方便 操作 的 话 ， 项 望 这 
篇 文章 对 您 会 有 帮助 。 


由 于 Keras 默 认 以 Tensorflow 为 后 端 ， 且 Theano 后 端 更 新 缓慢 ， 本 文 默 认 采 用 
Tensorflow1.0 作 为 Keras 后 端 ，Theano 版 安装 方式 请 访问 [www.scp-173.top] 
(http://www.scp-173.top) 


关于 计算 机 的 硬件 配置 说 明 


推荐 配置 


如 果 您 是 高 校 学 生 或 者 高 级 研究 人 员 ， 并 且 实 验 室 或 者 个 人 资金 充沛 ， 建 议 您 采用 
如 下 配置 


e 主板 : X99 型 号 、Z270 型 号 

e CPU: i7-6850K 或 17-7500K 及 其 以 上 高 级 型 号 

e 内 存 : 品牌 内 存 ， 总 容量 32G 以 上 ， 根 据 主板 组 成 4 通道 或 8 通道 

e SSD: 品牌 固态 硬盘 ， 容 量 256G 以 上 

e 显卡 : NVIDIA GTX 1080ti、NVIDIA GTX TITAN (Pascal) > NVIDIA GTX 
1080 ` NVIDIA GTX 1070 ` NVIDIA GTX 1060 (顺序 为 优先 性 价 比 建议 ， 并 且 
建议 同一 显卡 ， 可 以 根据 主板 插 档 数量 购买 多 块 ， 例 如 X99 型 号 主板 最 多 可 以 
采用 x4 的 显卡 ) 

e 电源 : 由 主机 机 容量 的 确定 ， 一 般 有 显卡 总 容量 后 再 加 200W 即 可 


最 低 配 置 


如 果 您 是 仅仅 用 于 自学 或 代码 调试 ， 亦 或 是 条 件 所 限 仅 采用 自己 现 有 的 设备 进 
行 开 发 ， 那 么 您 的 电脑 至 少 满足 以 下 几 点 : 


e CPU : Intel 第 四 代 i5 和 i7 以 上 系列 产品 或 同性 能 AMD 公 司 产品 


。 显卡 : 计算 能 力 高 于 NVIDIA GTX 750Ti 的 英 伟 达 显卡 


e HË: 总 容量 8G 以 上 


CPU 说 明 


e 大 多 数 CPU 目 前 支持 多 核 多 线程 ， 那 么 如 果 您 采用 CPU 加 速 ， 就 可 以 使 用 多 线 
程 运 算 。 这 方面 的 优势 对 于 服务 器 CPU Xeon 系 列 尤为 明显 


显卡 说 明 


e. 如 果 您 的 显卡 是 非 NVIDIA 公 司 的 产品 或 是 NVIDIA GTX 系 列 中 型 号 的 第 一 个 数 
字 低 于 4 或 NVIDIA 的 GT 系列 ， 都 不 建议 您 采用 此 类 显卡 进行 加 速 计算 ， 例 
如 NVIDIA GT 910 ^ NVIDIA GTX 450 等 等 2 

e eb elaine eda (型 号 后 面 带 有 标识 M) ， 那 么 请 您 
展 重 使 用 显卡 加 速 ， 因 为 移动 版 GPU 很 容易 发 生 过 热 烧毁 现象 。 

如 果 您 的 显卡 ， 显 示 的 是 诸如 HD5000 , ATI 5650 等 类 型 的 显卡 ， 那 么 您 


ZN 只 能 使 用 CPU 加 速 ik 


基本 开发 环境 搭建 


1. Microsoft Windows 版 本 


关于 Windows 的 版 本 选择 ， 本 人 强烈 建 ONR 能 的 新 机 器 采用 Windows 

10 作为 基础 环境 ， 部 分 老 昌 笔记 本 或 低 性 能 机 器 采 hi Windows 7 即 可 ， 本 文 环 

境 将 以 Windows 10 作为 开发 环境 进行 描 ° oan 10 的 发 行 版 本 选择 ， 
笔者 建议 采用 windows 10 enterprise 2016 ltsb x64 作为 基础 环境 。 





这 里 推荐 到 MSDN 我 告诉 你 下 载 ， 也 感谢 作者 国内 优秀 作者 雪 龙 狠 前 曹 所 做 出 的 贡 
献 与 牺牲 。 


= (Windows) 


分 词 走 起 Go! 






Windows 10 (Multiple Editions) (x64) - DVD (Chinese-Simplified) El 
T Windows 10 (Multiple Editions) (x86) - DVD (Chinese-Simplified) ET TTY 


工具 和 资源 





应 用 程序 

^) Windows 10 Education (x64) - DVD (Chinese-Simplified) EI 
开发 人 员工 具 TOSES Windows 10 Education (x86) - DVD (Chinese-Simplified) EZTI 

T) Windows 10 Enterprise (x64) - DVD (Chinese-Simplified) EL 
Compute Cluster Pack 韩语 T Windows 10 Enterprise (x86) - DVD (Chinese-Simplified) [ETT 
MS-DOS EEE _ 

已 色 选 (0) i i t inese-Simplifi 

Small uns E NETE Windows 10 Enterprise 2015 LTSB (x64) - DVD (Chinese-Simplified) [ETT 


Small Business Server 2003 R2 Windows 10 Enterprise 2015 LTSB (x86) - DVD (Chinese-Simplified) [7718 


Windows 10 7 Windows 10 Enterprise 2016 LTSB (x64) - DVD (Chinese-Simplified) TT: 


Windows 10 Insider Preview 10074 


Windows 10 Insider Preview 14295 文件 名 cn windows 10 enterprise 2016 Itsb x64 dvd 9060409.iso 
Windows 10, Version 1511 SHA1  9E405E950890D2A196565BCA35E152F9CFAD296D 
Windows 10, Version 1607 文件 大 小 ”3.56GB 

Windows 2000 发 布 时 间 2016-08-11 


Windows 3.1 (16-bit) 

Windows 3.11 (16-bit) 

Windows 3.11 for Workgroups (1... 
Windows 3.2 (16-bit) 

Windows 7 


Windows 10 Enterprise 2016 LTSB (x86) - DVD (Chinese-Simplified) EL 
设计 人 员工 具 


有 重复 项 时 仅 显示 最 新 项 


ed2k://|file|cn windows 10 enterprise 2016 ltsb x64 dvd 9060409.is0|3821895680|FF17FF2D5 
919E3A560151BBC11C399D1|/ 











直接 贴 出 热 链 ， 复 制 粘贴 迅雷 下 载 : 


ed2k://|file|cn windows 10 enterprise 2016 ltsb x64 dvd 9060409. 
iso|3821895680|FF17FF2D5919E3A560151BBC11C399D41 | / 





2. 编译 环境 Microsoft Visual Studio 2015 Update 
3 


(安装 CPU 版 本 非 必须 安装 ) 


CUDA 编 译 器 为 Microsoft Visual Studio， 版 本 从 2010-2015， 其 中 cuda7.5 仅 支 
持 2010、2012、2013， cuda8.0 仅 支 持 2015 版 本 ， 本 文采 用 Visual Studio 
2015 Update 3 。 同样 直接 贴 出 迅雷 热 链 : 


ed2k://|file|cn_visual_studio_professional_2015 with_update_3_x8 
6_x64_dvd_8923256.iso| 7745202176 | DD35D3D169D553224BE5FB44E074ED5 
E|/ 





FA (VVINQOWS ) 






格 分 词 走 起 Go! 





J Team Foundation Server Express 2015 Update 3 (x86 and x64) - DVD (Chinese-Simplified) ET [79 
Visual Studio Enterprise 2015 with Update 3 (x86 and x64) - DVD (Chinese-Simplified) [ETT 
Visual Studio Professional 2015 with Update 3 (x86 and x64) - DVD (Chinese-Simplified) E71 


Ex 
已 勾 选 (0) 


Visual Studio 2013 Update 2 
Visual Studio 2013 Update 2 RC 
Visual Studio 2013 Update 3 
Visual Studio 2013 Update 4 
Visual Studio 2013 Update 5 
Visual Studio 2015 

Visual Studio 2015 CTP 5 (Versio... 
Visual Studio 2015 Preview 
Visual Studio 2015 RC 

Visual Studio 2015 Update 1 
Visual Studio 2015 Update 2 


Visual Studio LightSwitch 2011 
Visual Studio.NET 
Visual Studio.NET 2003 











有 重复 项 时 仅 显示 最 新 项 


3. Python 环境 


python 环 境 建 设 推荐 使 用 科学 计算 集成 python 发 行 版 Anaconda，Anaconda 有 是 
Python 众多 发 行 版 中 非常 适用 于 科学 计算 的 版 本 ， 里 面 已 经 集成 了 很 多 优秀 的 科学 
计算 Python 库 。 建议 安装 Anconda3 4.2.0 版 本 ， 目 前 新 出 的 python3.6 存 在 部 分 
不 兼容 问题 ， 所 以 建议 安装 历史 版 本 4.2.0 注意 : windowshk 4 T “tensorflow 2 
时 不 支持 python2.7 


下 载 地 址 : Anaconda 


4. CUDA 


(安装 CPU 版 本 非 必 须 安 装 ) CUDA Toolkit 是 NVIDIA 公 司 面 向 GPU 编 程 提供 的 基础 
工具 包 ， 也 是 驱动 显卡 计算 的 核心 技术 工具 。 直接 安装 CUDA8.0 即 可 下 载 地 
At : https://developer.nvidia.com/cuda-downloads 


zu un 


Keras € X fe & £ 45 (Windows) 


Select Target Platform @ Related Links 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. CUDA Quick Start Guide 
Release Notes 


Er "e 
Linux Mac OSX g 

Online Documentation 
Architecture @ CUDA To 


x86_64 
Version 四 Server 2012 R2 Server 2008 R2 


Download Installer for Windows 10 x86_64 


The base installer is available for download below. 


> Base Installer Download (1.2 GB) $ 


Installation Instructions: 


Operating System 



































1. Double click cuda 8.0.44 win10.exe 
2. Follow on-screen prompts 











The checksums for the installer and patches can be found in Installer Checksums. 
For further information, see the Installation Guide for Microsoft Windows and the CUDA Quick Start Guide. 











在 下 载 之 后 ， 按 照 步骤 安装 ， 不 建议 新 手 修改 安装 目录 ， 同 上 ， 环 境 不 需要 配置 ， 
Meise 


6. 加 速 库 CuDNN 

人 官网 下 载 需要 注册 Nvidia 开发 者 账号 ， 网 盘 搜索 一 般 也 能 找到 。 Windows 目 前 
最 新 版 v6.0， 但 是 keras 尚 未 支持 此 版 本 ， 请 下 载 v5.1 版 本 ， 即 cudnn-8.0-win-x64- 
V5.1.zip。 下 载 解压 出 来 是 名 为 cuda 的 文件 夹 ， 里 面 有 bin、include、lib， 将 三 个 文 


件 夹 复制 到 安装 CUDA 的 地 方 覆 盖 对 应 文件 来， 默认 文件 夹 在 : C:\Program 
Files\NVIDIA GPU Computing Toolkit\CUDA\8.0 


Keras 框架 搭建 


安装 


在 CMD 命 令 行 或 者 Powershell 中 输入 : 


44 


GPU 


>>> pip install --upgrade https://storage.googleapis.com/tensorf 
low/windows/gpu/tensorflow_gpu-1.0.1-cp35-cp35m-win_amd64.whl 
>>> pip install --upgrade https://storage.googleapis.com/tensorf 
low/windows/cpu/tensorflow-1.0.1-cp35-cp35m-win amd64.whl 


Ka X: Hm 
ACI Ao 


>>> pip install keras -U --pre 


之 后 可 以 验证 keras 是 否 安装 成 功 ,在 命令 行 中 输入 Python 命令 进入 Python 变 成 命令 
行 环境 : 


a=) 


>>> import keras 


Using Tensorflow backend. 

I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows 
\tensorflow\stream_executor\dso_loader.cc:135] successfully open 
ed CUDA library cublas64_80.d11 locally 

I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows 
\tensorflow\stream_executor\dso_loader.cc:135] successfully open 
ed CUDA library cudnn64 5.dll locally 

I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows 
\tensorflow\stream_executor\dso_loader.cc:135] successfully open 
ed CUDA library cufft64 80.dll locally 

I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows 
\tensorflow\stream_executor\dso_loader.cc:135] successfully open 
ed CUDA library nvcuda.dll locally 

I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows 
\tensorflow\stream_executor\dso_loader.cc:135] successfully open 
ed CUDA library curand64_80.d11 locally 


>>> 


没有 报错 ， 那 么 Keras 就 已 经 成 功 安装 了 


e Keras 中 mnist 数 据 集 测 试 下 载 Keras 开 发 包 


Keras 安 装 和 配置 指南 (Windows) 


>>> conda install git 

>>> git clone https://github.com/fchollet/keras.git 
>>> cd keras/examples/ 

>>> python mnist_mlp.py 


程序 无 错 进行 ， 至 此 ，keras 安 装 完成 。 


Keras 中 文 文档 地 址 


声明 与 联系 方式 


由 于 作者 水 平和 研究 方向 所 限 ， 无 法 对 所 有 模块 都 非常 精通 ， 因 此 文档 中 不 可 避免 
的 会 出 现 各 种 错误 、 足 漏 和 不 足 之 处 。 如 果 您 在 使 用 过 程 中 有 任何 意见 、 建 议和 疑 
问 ， 欢 迎 发 送 邮 件 到 scp173.cool@gmail.com 与 中 文 文档 作者 取得 联系 . 


本 教程 不 得 用 于 任何 形式 的 商业 用 途 ， 如 果 需 要 转载 请 与 作者 或 中 文 文档 作者 联 
系 ， 如 果 发 现 未 经 允许 复制 转载 ， 将 保留 追求 其 法 律 责任 的 权利 。 


作者 : SCP-173 E-mail : scp173.cool@gmail.com 如 果 您 需要 及 时 得 到 指导 帮 
助 ， 可 以 加 微 信 : SCP173-cool > 酌情 打 赏 即 可 
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Keras 安 装 和 配置 指南 (Windows) 
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Keras 使 用 陷阱 


这 里 归纳 了 Keras 使 用 过 程 中 的 一 些 常见 陷阱 和 解决 方法 ， 如 果 你 的 模型 怎么 调 都 
搞 不 对 ， 或 许 你 有 必要 看 看 是 不 是 掉 进 了 哪个 猎人 的 陷阱 ， 成 为 了 一 只 喇 喇 待 衬 
(2) 的 猎物 


Keras 陷 阱 不 多 ， 我 们 保持 更 新 ， 布 望 能 做 一 个 陷阱 大 全 


AA EK deus) 


TF 卷 积 核 与 TH 卷 积 核 


Keras 提 供 了 两 套 后 端 ，Theano 和 Tensorflow， 这 是 一 件 幸 福 的 事 ， 就 像 手 中 拿 着 
Ye sk oo RA RE or HE ae or He > MRE A HE EG HE 


如 果 你 从 无 到 有 搭建 自己 的 一 套 网 络 ， 则 大 可 放心 。 但 如 果 你 想 使 用 一 个 已 有 网 
络 ， 或 把 一 个 用 th/tf 训练 的 网 络 以 另 一 种 后 端 应 用 ， 在 载 入 的 时 候 你 就 应 该 特别 小 
心 了 o 


卷 积 核 与 所 使 用 的 后 端 不 匹配 ， 不 会 报 任何 错误 ， 因 为 它们 的 shape 是 完全 一 臻 
的 ， 没 有 方法 能 够 检测 出 这 种 错误 。 


在 使 用 预 训练 模型 时 ， 一 个 建议 是 首先 找 一 些 测试 样本 ， 看 看 模型 的 表现 是 否 与 预 
计 的 一 致 。 


如 需 对 卷 积 核 进行 转换 ， 可 以 使 用 utils.convert_all_kernels_in_model 对 模型 的 所 有 
卷 积 核 进行 转换 


"BNET RARE 


如 果 你 不 知道 从 哪里 淘 来 一 个 预 训 练 好 的 BN 层 ， 想 把 它 的 权重 载 入 到 Keras 中 ， 要 
小 心 参数 的 载 入 顺序 。 


一 个 典型 的 例子 是 ， 将 caffe 的 BN 层 参数 载 入 Keras 中 ，caffe 的 BN 由 两 部 分 构成 ， 
bn 层 的 参数 是 mean，std，scale 层 的 参数 是 gamma beta 


按照 BN 的 文章 顺序 ， 似 乎 载 入 Keras BN 层 的 参数 应 该 是 [mean, std, gamma, beta] 


然而 不 是 的 ，Keras 的 BN 层 参数 顺序 应 该 是 gamma, beta, mean, std] * & <A A 
gamma 和 beta 是 可 训练 的 参数 ， 而 mean 和 std 不 是 


Keras 的 可 训练 参数 在 前 ， 不 可 训练 参数 在 后 


错误 的 权重 顺序 不 会 引起 任何 报错 ， 因 为 它们 的 shape 完 全 相同 


shuffle 和 validation_split 的 顺序 


模型 的 ff 函数 有 两 个 参数 ，shuffle 用 于 将 数据 打 乱 ，validation_split 用 于 在 没有 提供 
验证 集 的 时 候 ， 按 一 定 比 例 从 训练 集中 取出 一 部 分 作为 验证 集 


这 里 有 个 陷阱 是 ， 程 序 是 先 执行 validation_split， 再 执行 shuffle 的 ， 所 以 会 出 现 这 
种 情况 : 


假如 你 的 训练 集 是 有 序 的 ， 比 方 说 正 样 本 在 前 负 样 本 在 后 ， 又 设置 了 
validation_split， 那 么 你 的 验证 集中 很 可 能 将 全 部 是 负 样 本 


同样 的 ， 这 个 东西 不 会 有 任何 错误 报 出 来 ， 因 为 Keras 不 可 能 知道 你 的 数据 有 没有 
经 过 shuffle， 保 险 起 见 如 果 你 的 数据 是 没 shuffle 过 的 ， 最 好 手动 shuffle 一 下 


Merge £ $4 E *I RA RRA 


Keras 定 义 了 一 套用 于 融合 张 量 的 方法 ， 位 于 keras.layers.Merge， 里 面 有 两 套 工 
具 ， 以 大 写字 母 开 头 的 是 Keras Layer 类 ， 使 用 这 种 工具 是 需要 实例 化 一 个 Layer 对 
象 ， 然 后 再 使 用 。 以 小 写字 母 开头 的 是 张 量 函 数 方法 ， 本 质 上 是 对 Merge Layers} 
象 的 一 个 包装 ， 但 使 用 更 加 方便 一 些 。 注 意 辨析 。 


未 完 待 续 


如 果 你 在 使 用 Keras 中 遇 到 难以 察觉 的 陷阱 ， 请 发 信 到 moyan_work@foxmail.com 
pee aed cuis ere 
愿 各 位 Keras 使 用 者 积极 贡献 Keras 陷 阱 。 老 规矩 ， 陷 阱 贡献 者 将 被 列 入 致谢 一 栏 


RHR (Sequential) 模型 


EREM E SAA E RE dE LES KB SZ” o 


NE 


以 通过 向 Sequential 模型 传递 一 个 layer 的 list 来 构造 该 模型 : 


«3| 


from keras.models import Sequential 
from keras.layers import Dense, Activation 


model - Sequential([ 
Dense(32, units-784), 
Activation('relu'), 
Dense(10), 
Activation('softmax'), 


]) 


也 可 以 通过 ,add() 方法 一 个 个 的 将 layer 加 入 模型 中 : 


model = Sequential() 
model.add(Dense(32, input_shape=(784, ))) 
model.add(Activation('relu')) 


指定 输入 数据 的 shape 


模型 需要 知道 输入 数据 的 shape， 因 此 ， Sequential 的 第 一 层 需要 接受 一 个 关于 
输入 数据 shape 的 参数 ， als 则 可 以 自动 的 推导 出 中 间 数 据 的 shape ， 
此 不 需要 为 每 个 层 都 指定 这 个 参数 。 有 几 种 方法 来 为 第 一 层 指定 输入 数据 的 shape 


e 传递 一 个 input shape 的 关键 字 参 数 给 第 一 层 ， input shape 是 一 个 tuple 
类 型 的 数据 ， 其 中 也 可 以 填 入 None ， 如 果 填 入 None 则 表示 此 位 置 可 能 是 
任何 正 整 数 。 数 据 的 batch 大 小 不 应 包含 在 其 中 。 


e 有 些 2D 层 ， 如 Dense ， 支 持 通过 指定 其 输入 维度 input dim 来 隐 含 的 指定 
输入 数据 shape。 一 些 3D 的 时 域 层 支持 通过 参 
数 input dim 和 input length 来 指定 输入 shape。 


e 如 果 你 需要 为 输入 指定 一 个 固定 大 小 的 batch_size (常用 于 stateful RNN 网 
络 ) ， 可 以 传递 batch size 参数 到 一 个 层 中 ， 例 如 你 想 指 定 输入 张 量 的 
batch 大 小 是 32， 数 据 shape 是 (6°8) ， 则 你 需要 传 
递 batch_size=32 和 input_shape=(6,8) 。 


model = Sequential() 
model.add(Dense(32, input dim-/84)) 


model - Sequential() 
model.add(Dense(32, input shape-/84)) 


编译 


在 训练 模型 之 前 ， 我 们 需要 通过 compile 来 对 学 习 过 程 进行 配置 。 compile 接 
收 三 个 参数 : 


e 优化 器 optimizer : 该 参数 可 指定 为 已 预定 义 的 优化 器 名 ， 
如 rmsprop 、 adagrad ， 或 一 个 Optimizer 类 的 对 象 ， 详 情 见 optimizers 


e 损失 函数 loss : 该 参数 为 模型 试图 最 小 化 的 目标 函数 ， 它 可 为 预定 义 的 损失 郊 
数 名 ， 如 categorical crossentropy ^ mse ， 也 可 以 为 一 个 损失 函数 。 
详情 见 losses 


e 指标 列表 metrics : 对 分 类 问题 ， 我 们 一 般 将 该 列表 设置 为 metrics= 
['accuracy'] 。 指 标 可 以 是 一 个 预定 义 指标 的 名 字 , 也 可 以 是 一 个 用 户 定制 的 
部 数 .指标 函数 应 该 返回 单个 张 量 ,或 一 个 完成 metric name - > 
metric value 了 映射 的 字典 .请 参考 性 能 评估 


# For a multi-class classification problem 

model.compile(optimizer='rmsprop', 
loss='categorical_crossentropy', 
metrics=['accuracy']) 


# For a binary classification problem 

model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy']) 


# For a mean squared error regression problem 
model.compile(optimizer='rmsprop', 
loss='mse' ) 


# For custom metrics 
import keras.backend as K 


def mean_pred(y_true, y_pred): 
return K.mean(y_pred) 


model.compile(optimizer='rmsprop', 


loss='binary_crossentropy', 
metrics-['accuracy', mean pred]) 


训练 


Keras 以 Numpy 数 组 作为 输入 数据 和 标签 的 数据 类 型 。 训 练 模型 一 般 使 用 fit $ 
数 ， 该 函数 的 详情 见 这 里 。 下 面 是 一 些 例子 。 


# For a single-input model with 2 classes (binary classification 


Ne 


model = Sequential() 

model.add(Dense(32, activation-'relu', input dim-100)) 

model.add(Dense(i, activation='sigmoid')) 

model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy']) 


# Generate dummy data 

import numpy as np 

data = np.random.random( (i000, 100)) 

labels = np.random.randint(2, size=(1000, 1)) 


# Train the model, iterating on the data in batches of 32 samples 


model.fit(data, labels, epochs=10, batch_size=32) 


[到 
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# For a single-input model with 10 classes (categorical classifi 
cation): 


model = Sequential() 

model.add(Dense(32, activation='relu', input_dim=100) ) 

model.add(Dense(10, activation-'softmax')) 

model.compile(optimizer='rmsprop', 
loss='categorical_crossentropy', 
metrics=['accuracy']) 


# Generate dummy data 

import numpy as np 

data = np.random.random((1000, 100)) 

labels = np.random.randint(10, size=(1000, 1)) 


# Convert labels to categorical one-hot encoding 
one hot labels = keras.utils.to categorical(labels, num classes- 
10) 


# Train the model, iterating on the data in batches of 32 samples 


model.fit(data, one hot labels, epochs=10, batch size-32) 


E = EN nl 
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这 里 是 一 些 帮 助 你 开始 的 例子 
在 Keras 代 码 包 的 examples 文 件 夹 中 ， 你 将 找到 使 用 夏 实 数据 的 示例 模型 : 


e CIFAR10 小 图 片 分 类 : 使 用 CNN 和 实时 数据 提升 

e IMDB 电影 评论 观点 分 类 : 使 用 LSTM 处 理 成 序列 的 词语 

e Reuters (路 透 社 ) 新 闻 主 题 分 类 : 使 用 多 层 感知 器 (MLP) 
e MNIST 手 写 数 字 识 别 : 使 用 多 层 感知 器 和 CNN 

e 字符 级 文本 生成 : 使 用 LSTM ... 


基于 多 层 感知 器 的 softmax 多 分 类 : 


from keras.models import Sequential 
from keras.layers import Dense, Dropout, Activation 
from keras.optimizers import SGD 


# Generate dummy data 

import numpy as np 

X train = np.random.random((1000, 20)) 

y train - keras.utils.to categorical(np.random.randint(10, size-( 
1000, 1)), num classes-10) 

X test - np.random.random((100, 20)) 

y test = keras.utils.to categorical(np.random.randint(310, size=( 
100, 1)), num classes-10) 


model - Sequential() 

4 Dense(64) is a fully-connected layer with 64 hidden units. 

# in the first layer, you must specify the expected input data s 
hape: 

# here, 20-dimensional vectors. 

model.add(Dense(64, activation-'relu', input dim-206)) 
model.add(Dropout(0.5)) 

model.add(Dense(64, activation='relu')) 

model.add(Dropout(0.5)) 

model.add(Dense(10, activation='softmax' )) 


sgd = SGD(lrz0.01, decay=ie-6, momentum=0.9, nesterov-True) 
model.compile(loss='categorical_crossentropy', 
optimizer-sgd, 
metrics-['accuracy' ]) 


model.fit(x train, y train, 


epochs-20, 
batch size-128) 
score - model.evaluate(x test, y test, batch size-128) 





import numpy as np 
from keras.models import Sequential 
from keras.layers import Dense, Dropout 


# Generate dummy data 

x train = np.random.random((1000, 20)) 

y train = np.random.randint(2, size=(1000, 1)) 
x test = np.random.random((100, 20)) 

y test = np.random.randint(2, size=(100, 1)) 


model - Sequential() 

model.add(Dense(64, input dim-20, activation='relu')) 
model.add(Dropout(0.5)) 

model.add(Dense(64, activation='relu')) 
model.add(Dropout(0.5)) 

model.add(Dense(1, activation='sigmoid')) 


model.compile(loss-'binary crossentropy', 
optimizer='rmsprop', 
metrics=['accuracy']) 
model.fit(x_train, y_train, 
epochs=20, 
batch_size=128) 
score = model.evaluate(x_test, y_test, batch_size=128) 


类 似 VGG 的 卷 积 神经 网 络 : 


import numpy as np 

import keras 

from keras.models import Sequential 

from keras.layers import Dense, Dropout, Flatten 
from keras.layers import Conv2D, MaxPooling2D 
from keras.optimizers import SGD 


# Generate dummy data 

X train = np.random.random((100, 100, 100, 3)) 

y train - keras.utils.to categorical(np.random.randint(10, 
100, 1)), num classes-10) 


size-( 


x_test = np.random.random((20, 100, 100, 3)) 
y test = keras.utils.to categorical(np.random.randint(10, size=( 
20, 1)), num classes-10) 


model - Sequential() 
4 input: 100x100 images with 3 channels -> (100, 100, 3) tensors. 


# this applies 32 convolution filters of size 3x3 each. 
model.add(Conv2D(32, (3, 3), activation-'relu', input shape-z(100 
, 100, 3))) 

model.add(Conv2D(32, (3, 3), activation='relu')) 
model.add(MaxPooling2D(pool size=(2, 2))) 
model.add(Dropout(0.25)) 


model.add(Conv2D(64, (3, 3), activation-'relu')) 
model.add(Conv2D(64, (3, 3), activation-'relu')) 
model.add(MaxPooling2D(pool size=(2, 2))) 
model.add(Dropout(0.25)) 


model.add(Flatten()) 

model.add(Dense(256, activation='relu')) 
model.add(Dropout(0.5)) 
model.add(Dense(10, activation-'softmax')) 


sgd = SGD(lrz0.01, decay-ie-6, momentum=0.9, nesterov-True) 
model.compile(loss-'categorical crossentropy', optimizer-sgd) 


model.fit(x train, y train, batch size-32, epochs-10) 
score - model.evaluate(x test, y test, batch size-32) 
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使 用 LSTM 的 序列 分 类 


from keras.models import Sequential 
from keras.layers import Dense, Dropout 
from keras.layers import Embedding 

from keras.layers import LSTM 


model = Sequential() 
model.add(Embedding(max_features, output_dim=256) ) 
model.add(LSTM(128)) 

model.add(Dropout(0.5)) 

model.add(Dense(i, activation='sigmoid')) 


model.compile(loss-'binary crossentropy', 
optimizer='rmsprop', 


metrics=['accuracy']) 


model.fit(x_train, y_train, batch_size=16, epochs=10) 
score = model.evaluate(x_test, y_test, batch_size=16) 


使 用 1D 卷 积 的 序列 分 类 


from keras.models import Sequential 
from keras.layers import Dense, Dropout 
from keras.layers import Embedding 


from keras.layers import ConviD, GlobalAveragePoolingi1D, MaxPool 


ing1iD 


model = Sequential() 


model.add(ConviD(64, 3, activation-'relu', input_shape=(seq_leng 


th, 100))) 

model.add(ConviD(64, 3, activation='relu')) 
model .add(MaxPooling1D(3) ) 
model.add(ConviD(128, 3, activation-'relu')) 
model.add(ConviD(128, 3, activation-'relu')) 
model.add(GlobalAveragePooling1D() ) 
model.add(Dropout(0.5)) 

model.add(Dense(1, activation='sigmoid')) 


model.compile(loss='binary_crossentropy', 
optimizer='rmsprop', 


metrics=['accuracy']) 


model.fit(x train, y train, batch size-16, epochs=10) 
score - model.evaluate(x test, y test, batch size-16) 


用 于 序列 分 类 的 栈 式 LSTM 


在 该 模型 中 ， 我 们 将 三 个 LSTM 堆 县 在 一 起 ， 是 该 模型 能 够 学 习 更 高 层 
征 表示 。 


开始 的 两 层 LSTM 返 回 其 全 部 输出 序列 ， 而 第 三 层 LSTM 只 返回 其 输出 序 页 


步 结 果 ， 从 而 其 时 域 维度 降低 (即将 输入 序列 转换 为 单个 向 量 ) 


次 的 时 域 特 
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from keras.models import Sequential 
from keras.layers import LSTM, Dense 
import numpy as np 


data dim = 16 
timesteps - 8 
num classes - 10 


4 expected input data shape: (batch size, timesteps, data dim) 
model - Sequential() 
model.add(LSTM(32, return sequences-Tirue, 

input shape-(timesteps, data dim))) # returns a 
sequence of vectors of dimension 32 
model.add(LSTM(32, return sequences-True)) # returns a sequence 
of vectors of dimension 32 
model.add(LSTM(32)) # return a single vector of dimension 32 
model.add(Dense(10, activation='softmax' )) 


model.compile(loss='categorical_crossentropy', 
optimizer='rmsprop', 
metrics=['accuracy']) 


# Generate dummy training data 
x train = np.random.random((1000, timesteps, data dim)) 
y train = np.random.random((1000, num classes)) 


4 Generate dummy validation data 
x val = np.random.random((100, timesteps, data dim)) 
y val = np.random.random((100, num classes)) 


model.fit(x train, y train, 


batch size-64, epochs-5, 
validation data-(x val, y val)) 


Fl stateful LSTM 的 相同 模型 


stateful LSTM 的 特点 是 ， 在 处 理 过 一 个 batch 的 训练 数据 后 ， 其 内 部 状态 (记忆 ) 
会 被 作为 下 一 个 batch 的 训练 数据 的 初始 状态 。 状 态 LSTM 使 得 我 们 可 以 在 合理 的 计 
算 复 杂 度 内 处 理 较 长 序列 


请 FAQ 中 关于 stateful LSTM 的 部 分 获取 更 多 信息 


gu 


from keras.models import Sequential 
from keras.layers import LSTM, Dense 
import numpy as np 


data_dim = 16 
timesteps = 8 
num_classes = 10 
batch_size = 32 


# Expected input batch shape: (batch_size, timesteps, data_dim) 
# Note that we have to provide the full batch_input_shape since 
the network is stateful. 
# the sample of index i in batch k is the follow-up for the samp 
le i in batch k-1. 
model - Sequential() 
model.add(LSTM(32, return sequences-True, stateful-True, 

batch input shape-(batch size, timesteps, data di 
m))) 
model.add(LSTM(32, return sequences-True, stateful-True)) 
model.add(LSTM(32, stateful-True)) 
model.add(Dense(10, activation-'softmax')) 


model.compile(loss-'categorical crossentropy', 
optimizer='rmsprop', 
metrics=['accuracy']) 


# Generate dummy training data 
x_train = np.random.random((batch_size * 10, timesteps, data_dim 


)) 


y train = np.random.random((batch size * 10, num classes)) 


4 Generate dummy validation data 
x val = np.random.random((batch size * 3, timesteps, data dim)) 
y val - np.random.random((batch size * 3, num classes)) 


model.fit(x train, y train, 
batch size-batch size, epochs-5, shuffle-False, 
validation data-(x val, y val)) 
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快速 开始 函数 式 (Functional) 模型 


我 们 起 初 将 Functional 一 词 译作 泛 型 ， 想 要 表达 该 类 模型 能 够 表达 任意 张 量 映 射 的 
含义 ， 但 表达 的 不 是 很 精确 ， 在 Keras 2 里 我 们 将 这 个 词 改 译 为 “函数 式 ”， 对 函数 式 
编程 有 所 了 解 的 同学 应 能 够 快速 get 到 该 类 模型 想 要 表达 的 含义 。 函 数 式 模型 称 作 
Functional， 但 它 的 类 名 是 Model， 因 此 我 们 有 时 候 也 用 Model 来 代表 函数 式 模型 。 


Keras 函 数 式 模型 接口 是 用 户 定义 多 输出 模型 、 非 循环 有 向 模型 或 具有 共享 层 的 模 

型 等 复杂 模型 的 途径 。 一 句 话 ， 只 要 你 的 模型 不 是 类 似 VGG 一 样 一 条 路 走 到 黑 的 模 
型 ， 或 者 你 的 模型 需要 多 于 一 个 的 输出 ， 那 么 你 总 应 该 选择 函数 式 模型 。 咏 数 式 模 
型 是 最 广泛 的 一 类 模型 ， 序 贯 模型 (Sequential) 只 是 它 的 一 种 特殊 情况 。 


这 部 分 的 文档 假设 你 已 经 对 Sedquential 模 型 已 经 比较 训 


让 我 们 从 简单 一 点 的 模型 开始 


第 一 个 模型 : 全 连接 网 络 


* 层 对 象 接 受 张 量 为 参数 ， 返 回 一 个 张 量 。 
* 输入 是 张 量 ， 输 出 也 是 张 量 的 一 个 框架 就 是 一 个 模型 ， 通 过 ` Model” "X 3e 
* 这 样 的 模型 可 以 被 像 Keras 的 `、 “Sequential 一样 被 训练 
~*python 
from keras.layers import Input, Dense 


from keras.models import Model 


# This returns a tensor 
inputs = Input(shape=(784, )) 


# a layer instance is callable on a tensor, and returns a tensor 


X Dense(64, activation-'relu')(inputs) 


X Dense(64, activation-'relu')(x) 


predictions - Dense(10, activation-'softmax')(x) 


# This creates a model that includes 

# the Input layer and three Dense layers 

model - Model(inputs-inputs, outputs-predictions) 

model.compile(optimizer-'rmsprop', 
loss-'categorical crossentropy', 
metrics=['accuracy']) 

model.fit(data, labels) # starts training 


PE S REL A TI) > BRE 


利用 函数 式 模型 的 接口 ， 我 们 可 以 很 容易 的 重用 已 经 训练 好 的 模型 : 你 可 以 把 模型 
当 作 一 个 层 一 样 ， 通 过 提供 一 个 tensor 来 调用 它 。 注 意 当 你 调用 一 个 模型 时 ， 你 不 
仅仅 重用 了 它 的 结构 ， 也 重用 了 它 的 权重 。 
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Input (shape=(784, )) 
This works, and returns the 10-way softmax we defined above 


model(x) 
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这 种 方式 可 以 允许 你 快速 的 创建 能 处 理 序列 信号 的 模型 ， 你 可 以 很 快 将 一 个 图 像 分 
类 的 模型 变 为 一 个 对 视频 分 类 的 模型 ， 只 需要 一 行 代码 : 


from keras.layers import TimeDistributed 


# Input tensor for sequences of 20 timesteps, 
# each containing a 784-dimensional vector 
input sequences = Input(shape=(20, 784)) 


# This applies our previous model to every timestep in the input 
sequences. 

4 the output of the previous model was a 10-way softmax, 

4 so the output of the layer below will be a sequence of 20 vect 

ors of size 10. 

processed sequences - TimeDistributed(model)(input sequences) 


输入 和 多 输出 模型 


使 用 函数 式 模型 的 一 个 典型 场景 是 搭建 多 输入 、 多 输出 的 模型 。 


考虑 这 样 一 个 模型 。 我 们 希望 预测 Twitter 上 一 条 新 闻 会 被 转发 和 点 先 多 少 次 。 模 型 
的 主要 输入 是 新 闻 本 身 ， 也 就 是 一 个 词语 的 序列 。 但 我 们 还 可 以 拥有 额外 的 输入 ， 
如 新 闻 发 布 的 日 期 等 。 这 个 模型 的 损失 函数 将 由 两 部 分 组 成 ， 辅 助 的 损失 函数 评估 
仅仅 基于 新 闻 本 身 做 出 预测 的 情况 ， 主 损失 函数 评估 基于 新 闻 和 额外 信息 的 预测 的 
情况 ， 即 使 来 自主 损失 函数 的 梯度 发 生 弥 散 ， 来 自 辅助 损失 函数 的 信息 也 能 够 训练 
Embeddding 和 LSTM 层 。 在 模型 中 早点 使 用 主要 的 损失 函数 是 对 于 深度 网 络 的 一 个 
良好 的 正则 方法 。 总 而 言 之 ， 该 模型 框图 如 下 


让 我 们 用 有 函数 式 模型 来 实现 这 个 框图 


主要 的 输入 接收 新 闻 本 身 ， 即 一 个 整数 的 序列 (每 个 整数 编码 了 一 个 词 ) 。 这 些 整 
数位 于 1 到 10，000 之 间 ( 即 我 们 的 字典 有 10，000 个 词 ) 。 这 个 序列 有 100 个 单 
词 。 


from keras.layers import Input, Embedding, LSTM, Dense 
from keras.models import Model 


# Headline input: meant to receive sequences of 100 integers, be 
tween 1 and 10000. 

# Note that we can name any layer by passing it a "name" argumen 
Ge 

main_input = Input(shape=(100,), dtype='int32', name='main_input' 


) 


# This embedding layer will encode the input sequence 

# into a sequence of dense 512-dimensional vectors. 

x = Embedding(output dim-512, input dim-10000, input length-100) 
(main input) 


4 A LSTM will transform the vector sequence into a single vector, 


# containing information about the entire sequence 
lstm out = LSTM(32)(x) 
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然后 ， 我 们 插入 一 个 额外 的 损失 ， 使 得 即使 在 主 损失 很 高 的 情况 下 ，LSTM 和 
Embedding 层 也 可 以 平滑 的 训练 。 


auxiliary output = Dense(1, activation='sigmoid', name='aux_outp 
ut')(lstm out) 


再 然后 ， 我 们 将 LSTM 与 额外 的 输入 数据 串联 起 来 组 成 输入 ， 送 入 模型 中 : 
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auxiliary input = Input(shape=(5, ), name='aux_input') 
x = keras.layers.concatenate([lstm_out, auxiliary input]) 


We stack a deep densely-connected network on top 
Dense(64, activation='relu')(x) 


Dense(64, activation-'relu')(x) 


x x X dt 
lI 


Dense(64, activation='relu')(x) 


# And finally we add the main logistic regression layer 
main output = Dense(1, activation-'sigmoid', name='main_output') 


(x) 


最 后 ， 我 们 定义 整个 2 输入 ，2 输 出 的 模型 : 


model = Model(inputs=[main_input, auxiliary_input], outputs=[mai 
n output, auxiliary output]) 


模型 定义 完毕 ， 下 一 步 编 译 模 型 。 我 们 给 额外 的 损失 赋 0.2 的 权重 。 我 们 可 以 通过 关 
键 字 参 数 loss weights 或 loss 来 为 不 同 的 输出 设置 不 同 的 损失 函数 或 权 值 。 
这 两 个 参数 均 可 为 Python 的 列表 或 字典 。 这 里 我 们 给 loss 传递 单个 损失 函数 ， 这 
个 损失 函数 会 被 应 用 于 所 有 输出 上 。 


model.compile(optimizer='rmsprop', loss='binary_crossentropy', 
loss_weights=[1., 0.2]) 


编译 完成 后 ， 我 们 通过 传递 训练 数据 和 目标 值 训练 该 模型 : 


model.fit([headline_data, additional_data], [labels, labels], 
epochs=50, batch_size=32) 


因为 我 们 输入 和 输出 是 被 命名 过 的 (在 定义 时 传递 了 “name” 参 数 ) ， 我 们 也 可 以 用 
下 面 的 方式 编译 和 训练 模型 : 


model.compile(optimizer='rmsprop', 

loss-('main output': 'binary_crossentropy', 'aux o 
utput': 'binary_crossentropy'}, 

loss weights-('main output': 1., 'aux output': 0.2 


}) 


# And trained it via: 
model.fit({'main_input': headline_data, 'aux_input': additional_ 
data}, 
('main output': labels, 'aux output': labels}, 
epochs-50, batch size-32) 


XXE 
另 一 个 使 用 函数 式 模型 的 场合 是 使 用 共享 层 的 时 候 。 


考虑 微 博 数据 ， 我 们 希望 建立 模型 来 判别 两 条 微 博 是 否 是 来 自 同 一 个 用 户 ， 这 个 需 
求 同 样 可 以 用 来 判断 一 个 用 户 的 两 条 微 博 的 相似 性 。 


一 种 实现 方式 是 ， 我 们 建立 一 个 模型 ， 它 分 别 将 两 条 微 博 的 数据 映射 到 两 个 特征 向 
量 上 ， 然 后 将 特征 向 量 串联 并 加 一 个 logistic 回 归 层 ， 输 出 它们 来 自 同一 个 用 户 的 概 
率 。 这 种 模型 的 训练 数据 是 一 对 对 的 微 博 。 


因为 这 个 问题 是 对 称 的 ， 所 以 处 理 第 一 条 微 博 的 模型 当然 也 能 重用 于 处 理 第 二 条 微 
博 。 所 以 这 里 我 们 使 用 一 个 共享 的 LSTM 层 来 进行 映射 。 


首先 ， 我 们 将 微 博 的 数据 转 为 (140 > 256) 的 矩阵 ， 即 每 条 微 博 有 140 个 字符 ， 每 
个 单词 的 特征 由 一 个 256 维 的 词 向 量 表示 ， 向 量 的 每 个 元 素 为 1 表示 某 个 字符 出 现 ， 
为 0 表示 不 出 现 ， 这 是 一 个 one-hot 编 码 。 

之 所 以 是 (140，256) 是 因为 一 条 微 博 最 多 有 140 个 字符 ， 而 扩展 的 ASCII 码 表 纺 
码 了 常见 的 256 个 字符 。 原 文中 此 处 为 TWeet， 所 以 对 外 国人 而 言 这 是 合理 的 。 如 果 
考虑 中 文字 符 ， 那 一 个 单词 的 词 向 量 就 不 止 256 了 。 


import keras 
from keras.layers import Input, LSTM, Dense 
from keras.models import Model 


tweet_a Input(shape=(140, 256)) 
tweet b = Input(shape=(140, 256)) 


若 要 对 不 同 的 输入 共享 同一 层 2 就 初始 化 该 层 一 次 ? 然后 多 次 调用 它 


# This layer can take as input a matrix 
# and will return a vector of size 64 
shared_lstm = LSTM(64) 


# When we reuse the same layer instance 

# multiple times, the weights of the layer 
# are also being reused 

# (it is effectively *the same* layer) 
encoded_a = shared_lstm(tweet_a) 

encoded_b = shared_lstm(tweet_b) 


# We can then concatenate the two vectors: 
merged_vector = keras.layers.concatenate([encoded_a, encoded_b], 
axis=-1) 


# And add a logistic regression on top 
predictions = Dense(i, activation-'sigmoid')(merged vector) 


# We define a trainable model linking the 
# tweet inputs to the predictions 
model = Model(inputs=[tweet_a, tweet_b], outputs=predictions) 


model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy']) 

model.fit([data a, data b], labels, epochs=10) 


先 暂 停 一 下 ， 看 看 共享 层 到 底 输 出 了 什么 ， 它 的 输出 数据 shape 又 是 什么 


层 “ 节 点 ”的 概念 


无 论 何 时 ， 当 你 在 某 个 输入 上 调用 层 时 ， 你 就 创建 了 一 个 新 的 张 量 ( 即 该 层 的 输 
E) ， 同 时 你 也 在 为 这 个 层 增 加 一 个 " (计算) 节点 "。 这 个 节点 将 输入 张 量 映射 为 
输出 张 量 。 当 你 多 次 调用 该 层 时 ， 这 个 层 就 有 了 多 个 节点 ， 其 下 标 分 别 为 0，1， 

2... 


在 上 一 版 本 的 Keras 中 ， 你 可 以 通过 layer.get output() 方法 来 获得 层 的 输出 张 
量 ， 或 者 通过 layer.output shape 获得 其 输出 张 量 的 shape。 这 个 版 本 的 Keras 
你 仍然 可 以 这 么 做 (除了 layer.get_output() 被 output 替换 ) 。 但 如 果 一 个 
层 与 多 个 输入 相连 ， 会 出 现 什么 情况 呢 ? 


如 果 层 只 与 一 个 输入 相连 ， 那 没有 任何 困惑 的 地 方 。 output 将 会 返回 该 层 唯一 


a = Input(shape=(140, 256)) 


lstm = LSTM(32) 
encoded a = lstm(a) 


assert lstm.output == encoded a 


但 当 层 与 多 个 输入 相连 时 ， 会 出 现 问 题 


£5 
ll 


Input (shape=(140, 256) ) 
b = Input(shape=(140, 256) ) 


lstm = LSTM(32) 
encoded a = lstm(a) 


encoded b = lstm(b) 


lstm.output 


面 这 段 代码 会 报错 


>> AssertionError: Layer lstm 1 has multiple inbound nodes, 
hence the notion of "layer output" is ill-defined. 
Use ‘get output at(node index)" instead. 


通过 下 面 这 种 调用 方式 即 可 解决 


assert lstm.get output at(0) == encoded a 
assert lstm.get output at(1) -- encoded b 


</font> </a> 


对 于 input_shape 和 output_shape 也 是 一 样 ， 如 果 一 个 层 只 有 一 个 节点 ， 或 所 
有 的 节点 都 有 相同 的 输入 或 输出 shape， 那 么 input_shape 和 output shape 都 
是 没有 歧义 的 ， 并 也 只 返回 一 个 值 。 但 是 ， 例 如 你 把 一 个 相同 的 Conv2D 应 用 于 一 
个 大 小 为 (3,32,32) 的 数据 ， 然 后 又 将 其 应 用 于 一 个 (3,64,64) 的 数据 ， 那 么 此 时 该 层 

就 具有 了 多 个 输入 和 输出 的 shape， 你 就 需要 显 式 的 指定 节点 的 下 标 ， 来 表明 你 想 

取 的 是 哪个 了 


a = Input(shape=(3, 32, 32)) 
b = Input(shape=(3, 64, 64)) 


conv = Conv2D(16, (3, 3), padding='same' ) 
conved_a = conv(a) 


# Only one input so far, the following will work: 
assert conv.input_shape == (None, 3, 32, 32) 


conved_b = conv(b) 
# now the ~.input_shape’ property wouldn't work, but this does: 


assert conv.get_input_shape_at(0) == (None, 3, 32, 32) 
assert conv.get input shape at(1) == (None, 3, 64, 64) 


更 多 的 例子 


代码 示例 依然 是 学 习 的 最 佳 方式 ， 这 里 是 更 多 的 例子 


inception & 7 


inception $5 1# 2a 25 43 & Y Google f 3x & 7% 3: : Going Deeper with Convolutions 


from keras.layers import Conv2D, MaxPooling2D, 


input img = Input(shape=(3, 256, 256)) 


tower 1 - Conv2D(64, 


input img) 


tower 1 - Conv2D(64, 


tower 1) 


tower 2 - Conv2D(64, 


input img) 


tower 2 - Conv2D(64, 


tower 2) 


tower 3 = MaxPooling2D((3, 3), strides=(1, 1), 


nput img) 


tower 3 - Conv2D(64, 


tower 3) 


padding-'same', 


padding-'same', 


padding-'same', 


padding-'same', 


Input 


activation-'relu')( 


activation='relu' )( 


activation='relu' )( 


activation='relu' )( 


padding-'same')(i 


padding-'same', activation='relu' )( 


output = keras.layers.concatenate([tower_1, tower_2, tower_3], a 


xis=1) 
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5% € MZ (Residual Network) 的 详细 信息 请 参考 这 篇 文章 
Learning for Image Recognition 


: Deep Residual 


from keras.layers import Conv2D, Input 


input tensor for a 3-channel 256x256 image 

= Input(shape=(3, 256, 256)) 

3x3 conv with 3 output channels (Same as input channels) 
= Conv2D(3, (3, 3), padding='same' )(x) 

thisspeturns op y. 


N x< Gb x Gk 


keras.layers.add([x, y]) 


Q 


共享 视觉 模型 


该 模型 在 两 个 输入 上 重用 了 图 像 处 理 的 模型 ， 用 来 判别 两 个 MNIST 数 字 是 否 是 相 
的 数字 


a 


from keras.layers import Conv2D, MaxPooling2D, Input, Dense, 
tten 
from keras.models import Model 


# First, define the vision modules 
digit_input = Input(shape=(1, 27, 27)) 
x = Conv2D(64, (3, 3))(digit input) 

X Conv2D(64, (3, 3))(x) 

x = MaxPooling2D((2, 2))(Xx) 

out = Flatten()(x) 


vision model - Model(digit input, out) 

4 Then define the tell-digits-apart model 

digit a = Input(shape=(1, 27, 27)) 

digit b = Input(shape=(1, 27, 27)) 

# The vision model will be shared, weights and all 
out a - vision model(digit a) 


out b - vision model(digit b) 


concatenated - keras.layers.concatenate([out a, out b]) 
out = Dense(i, activation-'sigmoid')(concatenated) 


classification model - Model([digit a, digit b], out) 


视觉 问答 模型 


的 答案 


Fla 


在 针对 一 幅 图 片 使 用 自然 语言 进行 提问 时 ， 该 模型 能 够 提供 关于 该 图 片 的 一 个 单词 


这 个 模型 将 自然 语言 的 问题 和 图 片 分 别 映射 为 特征 向 量 ， 将 二 者 合并 后 训练 一 个 


logistic 回 归 层 ， 从 一 系列 可 能 的 回答 中 挑选 一 个 。 


from keras.layers import Conv2D, MaxPooling2D, Flatten 
from keras.layers import Input, LSTM, Embedding, Dense 
from keras.models import Model, Sequential 


# First, let's define a vision model using a Sequential model. 

# This model will encode an image into a vector. 

vision model = Sequential() 

vision model.add(Conv2D(64, (3, 3) activation-'relu', padding-'s 
ame', input shape-(3, 224, 224))) 

vision model.add(Conv2D(64, (3, 3), activation='relu')) 

vision model.add(MaxPooling2D((2, 2))) 

vision model.add(Conv2D(128, (3, 3), activation-'relu', padding- 
'same')) 

vision model.add(Conv2D(128, (3, 3), activation-'relu')) 

vision model.add(MaxPooling2D((2, 2))) 

vision model.add(Conv2D(256, (3, 3), activation-'relu', padding- 
'same')) 

vision model.add(Conv2D(256, (3, 3), activation-'relu')) 

vision model.add(Conv2D(256, (3, 3), activation-'relu')) 

vision model.add(MaxPooling2D((2, 2))) 

vision model.add(Flatten()) 


4 Now let's get a tensor with the output of our vision model: 
image input = Input(shape=(3, 224, 224)) 
encoded image - vision model(image input) 


4 Next, let's define a language model to encode the question int 
ONG eG: 

4 Each question will be at most 100 word long, 

4 and we will index words as integers from 1 to 9999. 

question input = Input(shape=(100,), dtype='int32') 
embedded_question = Embedding(input_dim=10000, output_dim=256, i 
nput length-z160)(question input) 

encoded question - LSTM(256)(embedded question) 


4 Let's concatenate the question vector and the image vector: 
merged - keras.layers.concatenate([encoded question, encoded ima 
ge]) 


4 And let's train a logistic regression over 1000 words on top: 
output - Dense(1000, activation-'softmax')(merged) 


# This is our final model: 
vqa model - Model(inputs-[image input, question input], outputs- 


output ) 


# The next stage would be training this model on actual data. 


视频 问答 模型 


在 做 完 图 片 问答 模型 后 ， 我 们 可 以 快速 将 其 转 为 视频 问答 的 模型 。 在 适当 的 训练 
下 ， 你 可 以 为 模型 提供 一 个 短视 频 (4 100 98). 然后 向 模型 提问 一 个 关于 该 视频 的 
问题 ， 如 “what sport is the boy playing ? ”->“football” 


from keras.layers import TimeDistributed 


video input = Input(shape=(100, 3, 224, 224)) 

# This is our video encoded via the previously trained vision mo 
del (weights are reused) 

encoded frame sequence - TimeDistributed(vision model)(video inp 
ut) # the output will be a sequence of vectors 

encoded video = LSTM(256)(encoded frame sequence) # the output 
will be a vector 


4 This is a model-level representation of the question encoder, 
reusing the same weights as before: 

question encoder = Model(inputs-question input, outputs-encoded 
question) 


# Let's use it to encode the question: 
video question input = Input(shape=(100,), dtype='int32') 
encoded video question - question encoder(video question input) 


# And this is our video question answering model: 

merged = keras.layers.concatenate( [encoded video, encoded video _- 
question]) 

output - Dense(1000, activation-'softmax')(merged) 
video qa model - Model(inputs-[video input, video question input 
], outputs-output) 
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关于 Keras 模 型 
Keras 有 两 种 类 型 的 模型 ， 序 员 模 型 (Sequential) feit AJE7 (Model) » £X 
式 模 型 应 用 更 为 广泛 ， 序 贯 模型 是 函数 式 模 型 的 一 种 特殊 情况 。 
两 类 模型 有 一 些 方法 是 相同 的 : 
e model.summary() :打印 出 模型 概况 
e model.get_config() :返回 包含 模型 配置 信息 的 Python 字典 。 模 型 也 可 以 从 


它 的 config 信 息 中 重 构 回 去 


config = model.get config() 
model = Model.from_config(config) 
# or, for Sequential: 


model = Sequential. from_config(config) 
e model.get_layer() :依据 层 名 或 下 标 获 得 层 对 象 


e model.get_weights() :返回 模型 权重 张 量 的 列表 ， 类 型 为 numpy array 


e model.set_weights() : 从 numpy array 里 将 权重 载 入 给 模型 ， 要 求 数 组 具 
有 与 model.get_weights() 相同 的 形状 。 


e model.to_json :返回 代表 模型 的 JSON 字 符 串 ， 仅 包含 网 络 结构 ， 不 包含 
权 值 。 可 以 从 JSON 字 符 串 中 重 构 原 模型 : 


from models import model_from_json 


json_string = model.to_json() 
model = model_from_json(json_string) 


e model.to_yaml : 4 model.to json 类 似 ， 同 样 可 以 从 产生 的 YAML 字 符 
串 中 重 构 模 型 


from models import model from yaml 


yaml string - model.to yaml() 
model - model from yaml(yaml string) 


e model.save weights(filepath) : 将 模型 权重 保存 到 指定 路 径 ， 文 件 类 型 
是 HDF5 (后 级 是 .h5) 


e model.load_weights(filepath, by name-False) : 从 HDF5 文 件 中 加 载 
权重 到 当前 模型 中 , 默认 情况 下 模型 的 结构 将 保持 不 变 。 如 果 想 将 权重 载 入 不 
同 的 模型 (有 些 层 相 同 ) 中 ， 则 设置 by_name=True ， 只 有 名 字 匹 配 的 层 才 
会 载 入 权重 


Sequential#z #! 4 7 


如 果 刚 开始 学 习 Sequential 模 型 ， 请 首先 移 步 这 里 阅读 文档 ， 本 节 内 容 是 
Sequential 的 API 和 参数 介绍 。 


常用 Sequential 属 性 


e model.layers 是 添加 到 模型 上 的 层 的 list 


Sequential 模 型 方法 
add 
add(self, layer) 


向 模型 中 添加 一 个 层 


e layer: Layer 对 象 


pop 
pop(self ) 


弹出 模型 最 后 的 一 层 ， 无 返回 值 


compile 


compile(self, optimizer, loss, metrics=None, sample_weight_mode= 
None) 


编译 用 来 配置 模型 的 学 习 过 程 ， 其 参数 有 
e optimizer: 字符 串 〈 预 定义 优化 器 名 ) 或 优化 器 对 象 ， 参 考 优 化 器 
e loss : 字符 串 〈 预 定义 损失 函数 名 ) RAMBR? AU AG 


e metrics : 列表 ， 和 包含 评估 模型 在 训练 和 测试 时 的 网 络 性 能 的 指标 ， 典 型 用 法 


是 metrics=['accuracy'] 


e sample weight mode : 如 果 你 需要 按时 间 步 为 样本 赋 权 (2D 权 矩阵 ) ， 将 该 
4& iX A "temporal" » RUA “None” > RAE AIA (1D 权 ) 。 在 下 
面 fit 函数 的 解释 中 有 相关 的 参考 内 容 。 


e kwargs : 使 用 TensorFlow 作 为 后 端 请 忽略 该 参数 ， 若 使 用 Theano 作 为 后 端 ， 
kwargs 的 值 将 会 传递 给 K.function 


model = Sequential() 

model.add(Dense(32, input_shape=(500, ))) 

model.add(Dense(10, activation-'softmax')) 

model.compile(optimizer='rmsprop', 
loss='categorical_crossentropy', 
metrics-['accuracy']) 
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fit 


fit(self, x, y, batch size-32, epochs-10, verbose=1, callbacks=N 
one, validation split-0.0, validation data-None, shuffle-True, c 
lass weight-zNone, sample weight-zNone, initial epoch-0) 


本 函数 将 模型 训练 nb epoch 轮 ， 其 参数 有 : 


X : 输入 数据 。 如 果 模 型 只 有 一 个 输入 ， 那 么 x 的 类 型 是 numpy array， 如 果 模 
型 有 多 个 输入 ， 那 么 x 的 类 型 应 当 为 list，list 的 元 素 是 对 应 于 各 个 输入 的 numpy 
array 


y : 标签 ，numpy array 


batch size : 整数 ， 指 定 进行 梯度 下 降 时 每 个 batch 包 含 的 样本 数 。 训 练 时 一 个 
batch 的 样本 会 被 计算 一 次 梯度 下 降 ， 使 目标 函数 优化 一 步 。 


epochs : 整数 ， 训 练 的 轮 数 ， 每 个 epoch 会 把 训练 集 轮 一 遍 。 


x 


verbose: 日 志 显 示 ，0 为 不 在 标准 输出 流 输 出 日 志 信息 ，1 为 输出 进度 条 记 
录 ，2 为 每 个 epoch 输 出 一 行 记录 


callbacks : list， 其 中 的 元 素 是 keras.callbacks.Callback 835] £& 9 iX4- 
list 中 的 回调 函数 将 会 在 训练 过 程 中 的 适当 时 机 被 调用 ， 参 者 回调 函数 


validation split : 0~1 之 间 的 浮 点 数 ， 用 来 指定 训练 集 的 一 定 比 例 数据 作为 验证 
集 。 验 证 集 将 不 参与 训练 ， 并 在 每 个 epoch 结 束 后 测试 的 模型 的 指标 ， 如 损失 
函数 、 精 确 度 等 。 注 意 ，validation_split 的 划分 在 shuffle 之 前 ， 因 此 如 果 你 的 
数据 本 身 是 有 序 的 ， 需 要 先 手 工 打 乱 再 指定 validation_split， 和 否则 可 能 会 出 现 
验证 集 样本 不 均匀 。 


validation data : 形式 为 (X，y) 的 tuple， 是 指定 的 验证 集 。 此 参数 将 覆盖 
validation spilt » 


shuffle : 布尔 值 或 字符 串 9 一 般 为 布尔 值 9 表示 是 否 在 训练 过 程 中 随机 打 乱 输 
入 样本 的 顺序 。 若 为 字符 串 “batch”， 则 是 用 来 处 理 HDF5 数 据 的 特殊 情况 ， 它 
将 在 batch 内 部 将 数据 打 乱 。 


class weight : 字典 ， 将 不 同 的 类 别 映射 为 不 同 的 权 值 ， 该 参数 用 来 在 训练 过 
程 中 调整 损失 函数 〈 只 能 用 于 训练 ) 


sample weight : 权 值 的 numpy array， 用 于 在 训练 时 调整 损失 有 函数 〈 仅 用 于 训 
te) 。 可 以 传递 一 个 1D 的 与 样本 等 长 的 向 量 用 于 对 样本 进行 1 对 1 的 加 权 ， 或 者 
在 面 对 时 序数 据 时 ， 传 递 一 个 的 形式 为 (samples ，sequence_length) 的 矩阵 
来 为 每 个 时 间 步 上 的 样本 赋 不 同 的 权 。 这 种 情况 下 请 确定 在 编译 模型 时 添加 

了 sample_weight_mode='temporal' 。 


initial epoch: 从 该 参数 指定 的 epoch 开 始 训练 ， 在 继续 之 前 的 训练 时 有 用 。 


*** 


«a name='evaluate'> 
«font color='#404040'> 
### evaluate 
«/font» 
</a> 
"python 
evaluate(self, x, y, batch size-32, verbose-1, sample weight-zNon 
e) 
本 函数 按 batch 计 算 在 某 些 输入 数据 上 模型 的 误差 ， 其 参数 有 : 
e X :输入 数据 ， 与 fit 一 样 ， 是 numpy array 或 numpy array “list 
e y :标签 ,numpy array 
e batch size: 整数 ， 含 义 同 fit 的 同名 参数 
e verbose: 含义 同 fit 的 同名 参数 ， 但 只 能 取 0 或 1 
e sample weight : numpy array > 含义 同 fit 的 同名 参数 


本 函数 返回 一 个 测试 误差 的 标量 值 (如 果 模 型 没有 其 他 评价 指标 ) ， 或 一 个 标量 的 
list (如 果 模 型 还 有 其 他 的 评价 指标 ) 。 model.metrics names 将 给 出 list 中 各 个 
值 的 含义 。 


如 果 没 有 特殊 说 明 ， 以 下 函数 的 参数 均 保 持 与 fit 的 同名 参数 相同 的 含义 


如 果 没 有 特殊 说 明 ， 以 下 函数 的 verbose 参 数 (如 果 有 ) 均 只 能 取 0 或 1 


predict 


predict(self, x, batch_size=32, verbose=0) 


本 函数 按 batch 获 得 输入 数据 对 应 的 输出 ， 其 参数 有 : 


函数 的 返回 值 是 预测 值 的 numpy array 


predict_classes 


predict_classes(self, x, batch_size=32, verbose=1) 


本 函数 按 batch 产 生 输 入 数据 的 类 别 预测 结果 


函数 的 返回 值 是 类 别 预 测 结果 的 numpy array 或 numpy 


predict_proba 


predict proba(self, x, batch_size=32, verbose-!) 


本 函数 按 batch 产 生 输 入 数据 属于 各 个 类 别 的 概率 


函数 的 返回 值 是 类 别 概率 的 numpy array 


train_on_batch 


train_on_batch(self, x, y, class_weight=None, sample_weight=None 


) 


本 函数 在 一 个 batch 的 数据 上 进行 一 次 参数 更 新 


函数 返回 训练 误差 的 标量 值 或 标量 值 的 list， 与 evaluate 的 情形 相同 。 


test_on_batch 


test on batch(self, x, y, sample _weight=None) 


本 函数 在 一 个 batch 的 样本 上 对 模型 进行 评估 


函数 的 返回 与 evaluate 的 情形 相同 


predict_on_batch 


predict_on_batch(self, x) 


本 函数 在 一 个 batch 的 样本 上 对 模型 进行 测试 


函数 返回 模型 在 一 个 batch 上 的 预测 结果 


fit_generator 


fit generator(self, generator, steps per epoch, epochs-!, verbos 
e=1, callbacks=None, validation data-None, validation steps-None 
, class weight-zNone, max q size-10, workers=1, pickle safe-False 
, initial epochz0) 


All Python 4E RE > BNE MAGE batch 3E 4T DI ZR o EMA AAR AS HT IN 
行 以 提高 效率 。 例 如 ， 该 函 ws b ， 同 时 在 GPU 
上 进行 模型 训练 


函数 的 参数 是 : 
e generator: 生成 器 有 函数 ， 生 成 器 的 输出 应 该 为 : 
o 一 个 形 如 (inputs > targets) 的 tuple 


o 一 个 形 如 (inputs, targets,sample weight) 的 tuple。 所 有 的 返回 值 都 应 该 
包含 相同 数目 的 样本 。 生 成 器 将 无 限 在 数据 集 上 循环 。 每 个 epoch 以 经 过 
模型 的 样本 数 达 到 samples_per_epoch 时 ， 记 一 个 epoch 结 


e steps per epoch : 整数 ， 当 生成 器 返回 steps per epoch 次 数据 时 计 一 个 
epoch 结 束 ， 执 行 下 一 个 epoch 


e epochs : #2 > RRR MK 


e verbose: 日 志 显 示 ，0 为 不 在 标准 输出 流 输 出 日 志 信 息 ，1 为 输出 进度 条 记 
录 ，2 为 每 个 epoch 输 出 一 行 记录 


e validation data : 具有 以 下 三 种 形式 之 一 
o 生成 验证 集 的 生成 器 
o 一 个 形 如 (inputs,targets) 的 tuple 
o 一 个 形 如 (inputs,targets，sample_weights ) 的 tuple 


e validation steps: 当 validation_data 为 生成 器 时 ， 本 参数 指定 验证 集 的 生成 器 
返回 次 数 

e class weight : 规定 类 别 权 重 的 字典 ， 将 类 别 映射 为 权重 ， 常 用 于 处 理 样 本 不 
均衡 问题 。 


e sample weight : 权 值 的 numpy array > M T 4 i 2 9 38 3 RA S C (B0 TPD 
HR) 。 可 以 传递 一 个 1D 的 与 样本 等 长 的 向 量 用 于 对 样本 进行 1 对 1 的 加 权 ， 或 者 
在 面 对 时 序数 据 时 ， 传 递 一 个 的 形式 为 (samples > sequence length) 的 矩阵 
来 为 每 个 时 间 步 上 的 样本 赋 不 同 的 权 。 这 种 情况 下 请 确定 在 编译 模型 时 添加 


了 sample_weight_mode='temporal' ° 
e workers : 最 大 进程 数 
e max q size : 生成 器 队列 的 最 大 容量 


e pickle safe: 若 为 芙 ， 则 使 用 基于 进程 的 线程 。 由 于 该 实现 依赖 多 进程 ， 不 能 
传递 non picklable (无 法 被 pickle 序 列 化 ) 的 参数 到 生成 器 中 ， 因 为 无 法 轻易 将 
CNGAFREF o 


e initial epoch: 从 该 参数 指定 的 epoch 开 始 训 练 ， 在 继续 之 前 的 训练 时 有 用 。 
函数 返回 一 个 History 对 象 


例子 : 


def generate_arrays_from_file(path): 
while 1: 

f = open(path) 

for line in f: 
4 create Numpy arrays of input data 
# and labels, from each line in the file 
X, y - process line(line) 
yield (x, y) 

f.close() 


model.fit generator(generate arrays from file('/my file.txt'), 
samples per epoch-10000, epochs-10) 


evaluate generator 


evaluate generator(self, generator, steps, max q size-10, worker 
s=1, pickle safe-False) 


本 函数 使 用 一 个 生成 器 作为 数据 源 评估 模型 ， 生 成 器 应 返回 与 test_on_batch 的 
输入 数据 相同 类 型 的 数据 。 该 函数 的 参数 与 fit generator 同名 参数 含义 相同 ， 
steps 是 生成 器 要 返回 数据 的 轮 数 。 


predcit_generator 


predict generator(self, generator, steps, max q size-10, workers= 
1, pickle safe-False, verbose=0) 


mM |e) 


本 函数 使 用 一 个 生成 器 作为 数据 源 预 测 模型 ， 生 成 器 应 返回 与 test_on_batch 的 
输入 数据 相同 类 型 的 数据 。 该 函数 的 参数 与 fit generator 同名 参数 含义 相同 ， 
steps 是 生成 器 要 返回 数据 的 轮 数 。 
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AA "1^ & XC ARI" > 请 查看 "Keras 新 手指 南 ” 的 相关 部 分 


Keras 的 函数 式 模型 为 Model ， 即 广义 的 拥有 输入 和 输出 的 模型 ， 我 们 使 
用 Model 来 初始 化 一 个 函数 式 模型 


from keras.models import Model 
from keras.layers import Input, Dense 


a = Input(shape=(32, )) 


b = Dense(32)(a) 
model = Model(inputs=a, outputs=b) 


在 这 里 ， 我 们 的 模型 以 a 为 输入 ， 以 b 为 输出 ， 同 样 我 们 可 以 构造 拥有 多 输入 和 
多 输出 的 模型 


model = Model(inputs=[a1, a2], outputs=[b1, b3, b3]) 


常用 Model 属 性 


e model.layers : 组 成 模型 图 的 各 个 层 
e model.inputs : 模型 的 输入 张 量 列 表 
e model.outputs : 模型 的 输出 张 量 列 表 


Model 模 型 万 法 
compile 


compile(self, optimizer, loss, metrics=None, loss_weights=None, 
sample_weight_mode=None) 


本 函数 编译 模型 以 供 训练 ， 参 数 有 
e optimizer : 优化 器 ， 为 预定 义 优化 器 名 或 优化 器 对 象 ， 参 考 优 化 器 
e loss: 损失 函数， 为 预定 义 损 失 函 数 名 或 一 个 目标 函数 ， 参 考 损失 有 函数 


e metrics : 列表 ， 包 人 钨 评估 模型 在 训练 和 测试 时 的 性 能 的 指标 ， 典 型 用 法 
是 metrics-['accuracy'] 如 果 要 在 多 输出 模型 中 为 不 同 的 输出 指定 不 同 的 
指标 ， 可 像 该 参数 传递 一 个 字典 ， 例 如 metrics={'ouput_a': 
"accuracy '} 


sample weight mode : 如 果 你 需要 按时 间 步 为 样本 赋 权 〈2D 权 矩阵 ) ， 将 该 
iät A "temporal" ° RUA "None" > A & JE AIA (1D 权 ) 。 如 果 模 型 有 多 
个 输出 ， 可 以 向 该 参数 传 入 指定 sample _ weight_mode 的 字典 或 列表 。 在 下 
面 fit 函数 的 解释 中 有 相关 的 参考 内 容 。 


kwargs : 使 用 TensorFlow 作 为 后 端 请 忽略 该 参数 ， 若 使 用 Theano 作 为 后 端 ， 
kwargs 的 值 将 会 传递 给 K.function 


当 为 参数 传 入 非法 值 时 会 抛 出 异常 


【Tips】 如 果 你 只 是 载 入 模型 并 利用 其 predict， 可 以 不 用 进行 compile。 在 Keras 
中 ， compile EEA RH RANGE 80 EE > EARRA © predicte 
在 内 部 进行 符号 函数 的 编译 工作 (通过 调用 _make_predict function 生 成 函数 ) > 


fit 


fit(self, x=None, y=None, batch size=32, epochs=1, verbose=1, ca 
llbacks=None, validation_split=0.0, validation_data=None, shuffl 
e-True, class weightzNone, sample_weight=None, initial_epoch=0) 


本 函数 用 以 训练 模型 ， 参 数 有 : 


e X: 输入 数据 。 如 果 模 型 只 有 一 个 输入 ， 那 么 X 的 类 型 是 numpy array， 如 果 模 
型 有 多 个 输入 ， 那 么 X 的 类 型 应 当 为 list，list 的 元 素 是 对 应 于 各 个 输入 的 numpy 
array。 如 果 模 型 的 每 个 输入 都 有 名 字 ， 则 可 以 传 入 一 个 字典 ， 将 输入 名 与 其 输 
入 数据 对 应 起 来 。 


e y : 4&2 > numpy array。 如 果 模 型 有 多 个 输出 ， 可 以 传 入 一 个 numpy array 的 
list。 如 果 模 型 的 输出 拥有 名 字 ， 则 可 以 传 入 一 个 字典 ， 将 输出 名 与 其 标签 对 应 
起 来 。 


e batch size : 整数 ， 指 定 进行 梯度 下 降 时 每 个 batch 包 含 的 样本 数 。 训 练 时 一 个 
batch 的 样本 会 被 计算 一 次 梯度 下 降 ， 使 目标 函数 优化 一 步 。 


e nb epoch : 整数 ， 训 练 的 轮 数 ， 训 练 数 据 将 会 被 遍历 nb_epoch 次 。Keras 中 
nb 开头 的 变量 均 为 "number of" 的 意思 


e verbose: 日 志 显 示 ，0 为 不 在 标准 输出 流 输 出 日 志 信 息 ，1 为 输出 进 
录 ，2 为 每 个 epoch 输 出 一 行 记录 


e callbacks : list， 其 中 的 元 素 是 keras.callbacks.Callback 的 对 象 。 
list 中 的 回调 函数 将 会 在 训练 过 程 中 的 适当 时 机 被 调用 ， 参 考 回 调 函 数 


e validation split : 0~1 之 问 的 浮 点 数 ， 用 来 指定 训练 集 的 一 定 比例 数据 作为 验证 
集 。 验 证 集 将 不 参 =a le? 并 在 每 个 epoch 结 束 后 测试 的 模型 的 指标 ， 如 损失 
函数 、 精 确 度 等 。 注 意 ，validation _splitey sl 分 在 shuffle 之 后 ， 因 此 如 果 你 的 
数据 本 身 是 有 序 的 ， 需 要 先 手 工 打 乱 再 指定 validation_split， 否 则 可 能 会 出 现 
验证 集 样本 不 均匀 。 


e validation data : 形式 为 (X，y) 或 (X，y，sample weights) “tuple > 43 
定 的 验证 集 。 此 参数 将 履 盖 validation_spilt 。 


e shuffle : 布尔 值 ， 表示 是 否 在 训练 过 程 中 每 个 epoch 前 随机 打 乱 输入 样本 的 顺 
序 o 
e class weight: 字典 ， 将 不 同 的 类 别 映射 为 不 同 的 权 值 ， 该 参数 用 来 在 训练 过 


程 中 调整 损失 函数 (只 能 用 于 训练 ) 。 该 参数 在 处 理 非 平衡 的 训练 数据 〈 某 些 
类 的 训练 样本 数 很 少 ) 时 ， 可 以 使 得 损失 函数 对 样本 数 不 足 的 数据 更 加 关注 。 


e sample weight : 权 值 的 numpy array， 用 于 在 训练 时 调整 损失 函数 〈 仅 用 于 训 
练 ) 。 可 以 传递 一 个 1D 的 与 样本 等 长 的 向 量 用 于 对 样本 进行 1 对 1 的 加 权 ， 或 者 
在 面 对 时 序数 据 时 ， 传 递 一 个 的 形式 为 (samples * sequence length) 的 矩阵 
来 为 每 个 时 间 步 上 的 样本 赋 不 同 的 权 。 这 种 情况 下 请 确定 在 编译 模型 时 添加 
f sample_weight_mode='temporal' 。 


e initial epoch: 从 该 参数 指定 的 epoch 开 始 训 练 ， 在 继续 之 前 的 训练 时 有 用 。 


输入 数据 与 规定 数据 不 匹配 时 会 抛 出 错误 


kkk 


<a name='evaluate'> 
<font color='#404040'> 
### evaluate 

</font> 

</a> 


"python 
evaluate(self, x, y, batch size-32, verbose-1, sample weight-Non 
e) 
本 函数 按 batch 计 算 在 某 些 输入 数据 上 模型 的 误差 ， 其 参数 有 : 
。X: 输 入 数据 ,与 fit 一 样 ， 是 numpy array 或 numpy array 的 list 
e y : 标签 ，numpy array 
e batch size: 整数 ， 含 义 同 fit 的 同名 参数 
e verbose: 含义 同 fit 的 同名 参数 ， 但 只 能 取 0 或 1 
e sample weight : numpy array * 含义 同 fit 的 同名 参数 


本 函数 返回 一 个 测试 误差 的 标量 值 (如 果 模 型 没有 其 他 评价 指标 ) ， 或 一 个 标量 的 
list (如 果 模 型 还 有 其 他 的 评价 指标 ) 。 model.metrics names 将 给 出 list 中 各 个 
值 的 含义 。 


如 果 没 有 特殊 说 明 ， 以 下 函数 的 参数 均 保 持 与 fit 的 同名 参数 相同 的 含义 


如 果 没 有 特殊 说 明 ， 以 下 函数 的 verbose 参 数 (如 果 有 ) 均 只 能 取 0 或 1 


predict 


predict(self, x, batch_size=32, verbose=0) 


本 函数 按 batch 获 得 输入 数据 对 应 的 输出 ， 其 参数 有 : 


函数 的 返回 值 是 预测 值 的 Numpy array 


train_on_batch 


train_on_batch(self, x, y, class_weight=None, sample weight=None 


) 


本 函数 在 一 个 batch 的 数据 上 进行 一 次 参数 更 新 


函数 返回 训练 误差 的 标量 值 或 标量 值 的 list， 与 evaluate 的 情形 相同 。 


test_on_batch 


test on batch(self, x, y, sample _weight=None) 


本 函数 在 一 个 batch 的 样本 上 对 模型 进行 评估 


函数 的 返回 与 evaluate 的 情形 相同 


predict on_batch 


predict_on_batch(self, x) 


本 函数 在 一 个 batch 的 样本 上 对 模型 进行 测试 


函数 返回 模型 在 一 个 batch 上 的 预测 结果 


fit_generator 


fit generator(self, generator, steps per epoch, epochs=1, verbos 
e=1, callbacks=None, validation data-None, validation steps-None 
, class weight-zNone, max q size-10, workers=1, pickle safe-False 
, initial epoch=0) 


All Python Ams > BNE MAGE batch ATV Zi o EMA AAR AS HT IN 
行 以 提高 效率 。 例 如 ， 该 函 LEE a. 同时 在 GPU 
上 进行 模型 训练 


函数 的 参数 是 : 
e generator: 生成 器 有 函数 ， 生 成 器 的 输出 应 该 为 : 
o 一 个 形 如 (inputs，targets) 的 tuple 


o 一 个 形 如 (inputs, targets,sample weight) 的 tuple。 所 有 的 返回 值 都 应 该 
kids 同 数 目的 样本 。 生 成 器 将 无 限 在 数据 集 上 循环 。 每 个 epoch 以 经 过 
英 型 的 样本 数 达 到 samples per epoch 时 ， 记 一 个 epoch 结 


steps_per_epoch : 整数 ， 当 生成 器 返回 steps per epoch 次 数据 时 计 一 个 
epoch 结 束 ， 执 行 下 一 个 epoch 


e epochs : 整数 ， 数 据 挝 代 的 轮 数 


e verbose: 日 志 显 示 ，0 为 不 在 标准 输出 流 输出 日 志 信 息 ，1 为 输出 进 
录 ，2 为 每 个 epoch 输 出 一 行 记录 


e validation data : 具有 以 下 三 种 形式 之 一 
o 生成 验证 集 的 生成 器 
o 一 个 形 如 (inputs,targets ) 的 tuple 
o 一 个 形 如 (inputs,targets > sample weights) 的 tuple 


e validation steps: 当 validation_data 为 生成 器 时 ， 本 参数 指定 验证 集 的 生成 器 
回 次 数 


e class weight : 规定 类 别 权重 的 字典 ， 将 类 别 映射 为 权重 ， 常 用 于 处 理 样 本 不 
均衡 问题 。 


@ 
函数 


例子 


sample weight : 权 值 的 numpy array， 用 于 在 训练 时 调整 损失 部 数 ( 仅 用 于 训 
te) 。 可 以 传递 一 个 1D 的 与 样本 等 长 的 向 量 用 于 对 样本 进行 1 对 1 的 加 权 ， 或 者 
在 面 对 时 序数 据 时 ， 传 递 一 个 的 形式 为 (samples ，sequence_length) 的 矩阵 
来 为 每 个 时 间 步 上 的 样本 赋 不 同 的 权 。 这 种 情况 下 请 确定 在 编译 模型 时 添加 

了 sample_weight_mode='temporal' 。 


workers : 最 大 进程 数 
max q size : 生成 器 队列 的 最 大 容量 


pickle_safe: 若 为 趴 ， 则 使 用 基于 进程 的 线程 。 由 于 该 实现 依赖 多 进程 ， 不 能 
传递 non picklable (无 法 被 pickle 序 列 化 ) 的 参数 到 生成 器 中 ， 因 为 无 法 轻易 将 
它们 传 入 子 进程 中 。 


initial epoch: 从 该 参数 指定 的 epoch 开 始 训练 ， 在 继续 之 前 的 训练 时 有 用 。 


返回 一 个 History WR 


def generate_arrays_from_file(path): 


while 1: 
f = open(path) 
for line in f: 
4 create numpy arrays of input data 
# and labels, from each line in the file 
X1, x2, y = process line(line) 
vieldocr'xnpurccto cro "anputs25- x21 1 0Ubplit^ v) 
f.close() 


model.fit generator(generate arrays from file('/my file.txt'), 


steps per epoch-10000, epochs-10) 


evaluate generator 


evaluate generator(self, generator, steps, max q size-10, worker 
s=1, pickle safe-False) 


本 函数 使 用 一 个 生成 器 作为 数据 源 ， 来 评估 模型 ， 生 成 器 应 返回 
与 test_on_batch 的 输入 数据 相同 类 型 的 数据 。 


函数 的 参数 是 : 
e generator : 生成 输入 batch 数 据 的 生成 器 
e val samples : 生成 器 应 该 返回 的 总 样本 数 
e steps : 生成 器 要 返回 数据 的 轮 数 
e max q size : 生成 器 队列 的 最 大 容量 
e nb_worker : 使 用 基于 进程 的 多 线程 处 理 时 的 进程 数 


e pickle_safe : 若 设 置 为 TTue， 则 使 用 基于 进程 的 线程 。 注 意 因 为 它 的 实现 依赖 
于 多 进程 处 理 ， 不 可 传递 不 可 pickle 的 参数 到 生成 器 中 ， 因 为 它们 不 能 轻易 的 
传递 到 子 进程 中 。 


predict_generator 


fit generator(self, generator, steps per epoch, epochs=1, verbos 
e=1, callbacks=None, validation data-None, validation steps-None 
, class weight-zNone, max q size-10, workers=1, pickle safe-False 
, initial epochz0) 


从 一 个 生成 器 上 获取 数据 并 进行 预测 ， 生 成 器 应 返回 与 predict_on_batch 输入 
类 似 的 数据 
函数 的 参数 是 : 


e generator : 生成 输入 batch 数 据 的 生成 器 
e val samples : 生成 器 应 该 返回 的 总 样本 数 
e max q size : 生成 器 队列 的 最 大 容量 


e nb worker : 使 用 基于 进程 的 多 线程 处 理 时 的 进程 数 


e pickle safe: 若 设置 为 True， 则 使 用 基于 进程 的 线程 。 注 意 因为 它 的 实现 依赖 
于 多 进程 处 理 ， 不 可 传递 不 可 pickle 的 参数 到 生成 器 中 ， 因 为 它们 不 能 轻易 的 
传递 到 子 进程 中 。 


关于 Keras 的 “ 层 ”(Layer ) 


所 有 的 Keras 层 对 象 都 有 如 下 方法 : 
e layer.get weights() :返回 层 的 权重 (numpy array) 
e layer.set_weights(weights) : 从 numpy array 中 将 权重 加 载 到 该 层 中 ， 


要 求 numpy array 的 形状 与 * layer.get weights() 的 形状 相同 


python 
layer = Dense(32) 
config = layer.get_config() 
reconstructed_layer = Dense.from_config(config) 


RA: 
from keras import layers 


config = layer.get config() 
layer = layers.deserialize({'class_name': layer. class . name 





= 


'config': config}) 

如 果 层 仅 有 一 个 计算 节点 ( 即 该 层 不 是 共享 层 ) ， 则 可 以 通过 下 列 方法 获得 输入 张 
量 、 输 出 张 量 、 输 入 数据 的 形状 和 输出 数据 的 形状 : 

e layer.input 

e layer.output 

e layer.input_shape 

e layer.output_shape 
如 果 该 层 有 多 个 计算 节点 (参考 层 计算 节点 和 共享 层 ) 。 可 以 使 用 下 面 的 方法 

e layer.get_input_at(node_index) 


e layer.get_output_at(node_index) 


e layer.get_input_shape_at(node_index) 


e layer.get_output_shape_at(node_index) 


常用 层 


常用 层 对 应 于 core 模 块 ，core 内 部 定义 了 一 系列 常用 的 网 络 层 ， 包 括 全 连接 、 激 活 


keras.layers.core.Dense(units, activation=None, use_bias=True, k 
ernel_initializer='glorot_uniform', bias_initializer='zeros', ke 
rnel_regularizer=None, bias_regularizer=None, activity_regulariz 
er=None, kernel_constraint=None, bias_constraint=None) 


Dense 就 是 常用 的 全 连接 层 ， 所 实现 的 运算 是 output = 
activation(dot(input, kernel)+bias) 其 中 activation 是 逐 元 素 计算 
激活 函数 ， m EST ETT 向 量 ， 只 有 

当 use bias-True 才 会 添加 。 


如 果 本 层 的 输入 数据 的 维度 大 于 2， 则 会 先 被 压 为 与 kernel 相 匹 配 的 大 小 。 


这 里 是 一 个 使 用 示例 : 


# as first layer in a sequential model: 

4 as first layer in a sequential model: 

model - Sequential() 

model.add(Dense(32, input shape-z(16,))) 

4 now the model will take as input arrays of shape (*, 16) 
4 and output arrays of shape (*, 32) 


4 after the first layer, you don't need to specify 


4 the size of the input anymore: 
model.add(Dense(32)) 


参数 : 


e units: 大 于 0 的 整数 ， 代 表 该 层 的 输出 维度 。 


e activation : 激活 函数 ， 为 预定 义 的 激活 函数 名 (参考 激活 函数 ) ， 或 逐 元 素 
(element-wise) 的 Theano 函 数 。 如 果 不 指 定 该 参数 ， 将 不 会 使 用 任何 激活 函 
数 ( 即 使 用 线性 激活 函数 : a(x)=x) 


e use bias: 布尔 值 ， 是否 使 用 偏 置 项 


e kernel initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 initializers 


e bias initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 initializers 


e kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 
e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 
e activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 
e kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 


e bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 


输入 


E 


形 如 (nb_samples, ..., input shape[1]) 9nD2K € > Xx? JL 5 2071 (nb samples, 
input_dim)# 2D sk € 


输出 


形 如 (nb_samples, .…., units) 的 nD 张 量 ， 最 常见 的 情况 为 (nb_samples, output dim) 
的 2D 张 量 


Activation = 


</font></a> 


keras.layers.core.Activation(activation) 


激活 层 对 一 个 层 的 输出 施加 激活 函数 
参数 


e activation : 将 要 使 用 的 激活 函数 ， 为 预定 义 激活 函数 名 或 一 个 
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‘at A Shape 


任意 ， 当 使 用 激活 层 作 为 第 一 层 时 ， 要 指定 input shape 


输出 shape 


与 输入 shape 相 同 


</a name='dropout'> 


Dropout% 


</font></a> 


keras.layers.core.Dropout(rate, noise_shape=None, seed=None) 


为 输入 数据 施加 Dropout。Dropout 将 在 训练 过 程 中 每 次 更 新 参数 时 随机 断 开 一 定 百 
分 比 (rate) 的 输入 神经 元 ，Dropout 层 用 于 防止 过 拟 合 。 


参数 


e rate : 0~1 的 浮 点 数 ， 控 制 需要 断 开 的 神经 元 的 比例 


e noise shape : 整数 张 量 ， 为 将 要 应 用 在 输入 上 的 二 值 Dropout mask 的 
shape， 例 如 你 的 输入 为 (batch_size, timesteps, features)， 并 且 你 希望 在 各 个 
时 间 步 上 的 Dropout mask 都 相同 ， 则 可 传 入 noise shape-(batch size, 1, 
features) ° 


e seed : 整数 ， 使 用 的 随机 数 种 子 


e Dropout: A Simple Way to Prevent Neural Networks from Overfitting 


Flatten = 


keras.layers.core.Flatten() 


Flatten/Z M RAGA ASE” > Fpde 2 EA A Eb * EE EO 
的 过 渡 。Flatten 不 影响 batch 的 大 小 。 


QUE 


model - Sequential() 
model.add(Convolution2D(64, 3, 3, 

border mode-'same', 

input shape-z(3, 32, 32))) 
4 now: model.output shape == (None, 64, 32, 32) 


model.add(Flatten()) 
4 now: model.output shape -- (None, 65536) 


Reshape = 
keras.layers.core.Reshape(target_shape) 
Reshape 层 用 来 将 输入 shape 转换 为 特定 的 shape 


参数 


只 层 到 全 


连接 层 


e target shape : 目标 shape， 为 整数 的 tuple， 不 包含 样本 数目 的 维度 (batch X 
小 ) 


输入 shape 


任意 ， 但 输入 的 shape 必 须 固定 。 当 使 用 该 层 为 模型 首 层 时 ， 需 要 指 
定 input_shape 参数 


输出 shape 


HHH 例子 


"python 
# as first layer in a Sequential model 
model - Sequential() 
model.add(Reshape((3, 4), input shape-(12,))) 
# now: model.output shape == (None, 3, 4) 
# note: ^"None' is the batch dimension 


4 as intermediate layer in a Sequential model 
model.add(Reshape((6, 2))) 

# now: model.output shape == (None, 6, 2) 

# also supports shape inference using ~-1° as dimension 


model.add(Reshape((-1, 2, 2))) 
# now: model.output shape == (None, 3, 2, 2) 


Permute = 


keras.layers.core.Permute(dims) 


Permute 层 将 输入 的 维度 按照 给 定 模 式 进 行 重 排 ， 例 如 ， 妆 需要 将 RNN 和 CNN 网 络 
连接 时 ， 可 能 会 用 到 该 层 。 


参数 
。dims : 整数 tuple， 指 定 重 排 的 模式 ， 不 包含 样本 数 的 维度 。 重 拍 模式 的 下 标 从 


1 开始 。 例 如 (2，1) 代表 将 输入 的 第 二 个 维度 重 拍 到 输出 的 第 一 个 维度 ， 而 
将 输入 的 第 一 个 维度 重 排 到 第 二 个 维度 


网 下 


model = Sequential() 
model.add(Permute((2, 1), input_shape=(10, 64))) 


+ now: model.output shape == (None, 64, 10) 
i note: “None is the batch dimension 

人 
输入 shape 


任意 ， 当 使 用 激活 层 作 为 第 一 层 时 ， 要 指定 input shape 


输出 shape 


与 输入 相同 ， 但 是 其 维度 按照 指定 的 模式 重新 排列 


RepeatVector = 
keras.layers.core.RepeatVector(n) 
RepeatVector 层 将 输入 重复 n 次 
参数 
en: 整 数 ， 重 复 的 次 数 


输入 Shape 


形 如 (nb samples, features) 的 2D 张 量 


输出 shape 


形 如 (nb_samples, n, features) 的 3D 张 量 
4] -F 


model - Sequential() 
model.add(Dense(32, input dim-32)) 
# now: model.output shape == (None, 32) 


# note: “None is the batch dimension 


model.add(RepeatVector(3)) 


# now: model.output shape == (None, 3, 32) 


Lambda E 


keras.layers.core.Lambda(function, output shapezNone, mask=None, 
argument szNone ) 


本 函数 用 以 对 上 一 层 的 输出 施 以 任何 Theano/TensorFlow 表 达 式 
参数 


e function : 要 实现 的 函数 ， 该 函数 仅 接受 一 个 变量 ， 即 上 一 层 的 输出 


e output shape : 浆 数 应 该 返回 的 值 的 shape， 可 以 是 一 个 tuple， 也 可 以 是 一 个 
根据 输入 shape 计 算 输 出 shape 的 函数 


e mask: 掩 膜 


e arguments: 可 选 ， 字 典 ， 用 来 记录 向 函数 中 传递 的 其 他 关键 字 参 数 


| F 


# add a x -> xA2 layer 
model.add(Lambda( lambda x: x ** 2)) 


# add a layer that returns the concatenation 
# of the positive part of the input and 
# the opposite of the negative part 


def antirectifier(x): 


X -= K.mean(x, axis-i, keepdims=True) 
X = K.12 normalize(x, axis=1) 

pos - K.relu(x) 

neg - K.relu(-x) 


return K.concatenate([pos, neg], axis=1) 
def antirectifier output shape(input shape): 
shape - list(input shape) 
assert len(shape) == 2 # only valid for 2D tensors 
shape[-1] *- 2 
return tuple(shape) 


model.add(Lambda(antirectifier, 
output shape-antirectifier output shape)) 


输入 Shape 


任意 ， 当 使 用 该 层 作 为 第 一 层 时 ， 要 指定 input shape 


输出 shape 


由 output shape 参数 指定 的 输出 shape ， 当 使 用 tensorflow 时 可 自动 推断 


ActivityRegularizer/Z 


keras.layers.core.ActivityRegularization(11=0.0, 12=0.0) 


经 过 本 层 的 数据 不 会 有 任何 变化 ， 但 会 基于 其 激活 值 更 新 损失 部 数值 


ud 


参数 
e 1: 1 范 数 正则 因子 ( 正 浮 点 数 ) 


e 12: 2 范 数 正则 因子 ( 正 浮 点 数 ) 


输入 shape 


任意 ， 当 使 用 该 层 作为 第 一 层 时 ， 要 指定 input_shape 


输出 shape 


与 输入 shape 相 同 


Masking% 
keras.layers.core.Masking(mask_value=0.0) 


使 用 给 定 的 值 对 输入 的 序列 信号 进行 "屏蔽 ”， 用 以 定位 需要 跳 过 的 时 间 步 


对 于 输入 张 量 的 时 间 步 ， 即 输入 张 量 的 第 1 维度 (维度 从 0 开始 算 ， 见 例子 ) codec 
输入 张 量 在 该 时 间 步 上 都 等 于 mask value ， 则 该 时 间 步 将 在 模型 接 下 来 的 所 有 
层 (只 要 支持 masking) 被 跳 过 (屏蔽 ) ° 


如 果 模 型 接 下 来 的 一 些 层 不 支持 masking， 却 接受 到 masking 过 的 数据 ， 则 抛 出 弄 


(la 


考虑 输入 数据 x 是 一 个 形 如 (samples,timesteps,features) 的 张 量 ， 现 将 其 送 入 
LSTM 层 。 因 为 你 缺少 时 间 步 为 3 和 5 的 信号 ， 所 以 你 希望 将 其 掩盖 。 这 时 候 应 该 : 


e 赋值 x[:,3,:] =0. ， x[:,5,:] = 0. 
e 在 LSTM 层 之 前 插入 mask value-0. 的 Masking 层 


model = Sequential() 
model.add(Masking(mask_value=0., input_shape=(timesteps, feature 


s))) 
model.add(LSTM(32)) 


卷 积 层 
Conv1D E 


keras.layers.convolutional.ConviD(filters, kernel size, strides=1 
, padding-'valid', dilation_rate=1, activation=None, use bias-Tr 

ue, kernel initializer-'glorot uniform', bias initializer-'zeros' 
, kernel regularizerzNone, bias regularizer-None, activity regul 

arizer-None, kernel constraintzNone, bias constraint-zNone) 


EE p] 


一 维 卷 积 层 〈 即 时 域 卷 积 ) ， 用 以 在 一 维 输入 信号 上 进行 邻 域 滤波 。 当 使 用 该 层 作 
为 首 层 时 ， 需 要 提供 关键 字 参 数 input_shape 。 例 如 (10,128) 代表 一 个 长 为 10 
的 序列 ， 序 列 中 每 个 信号 为 128 向 量 。 而 (None, 128) 代表 变 长 的 128 维 向 量 序 
列 o 


该 层 生成 将 输入 信号 与 卷 积 核 按 照 单 一 的 空域 (或 时 域 ) 方向 进行 卷 积 。 如 
Æ use bias-True ， 则 还 会 加 上 一 个 偏 置 项 ， 若 activation 不 为 None， 则 输 
出 为 经 过 激活 函数 的 输出 。 


参数 


e filters: 卷 积 核 的 数目 ( 即 输出 的 维度 ) 
e kernel size : 整数 或 由 单个 整数 构成 的 listtuple， 卷 积 核 的 空域 或 时 域 窗 长 度 


e strides: 整数 或 由 单个 整数 构成 的 list/tuple， 为 卷 积 的 步 长 。 任 何不 为 1 的 
strides 均 与 任何 不 为 1 的 dilation_rata 均 不 兼容 


e padding : 补 0 策略 ， 为 “valid”, “same” 或 “causal”"，“causa[" 将 产生 因果 (膨胀 
的 ) 卷 积 ， 即 output[t 不 依赖 于 input[t+1 : ]。 当 对 不 能 违反 时 间 顺 序 的 时 序 信 
号 建 模 时 有 有 用。 参考 WaveNet: A Generative Model for Raw Audio, section 
2.1.。“Valid" 代 表 只 进行 有 效 的 卷 积 ， 即 对 边界 数据 不 处 理 。“same” 代 表 保 留 
边界 处 的 卷 积 结果 ， 通 常会 导致 输出 shape 与 输入 shape 相 同 。 


e activation : 激活 函数 ， 为 预定 义 的 激活 函数 名 (参考 激活 函数 ) ， 或 逐 元 素 
(element-wise) 的 Theano 函 数 。 如 果 不 指 定 该 参数 ， 将 不 会 使 用 任何 激活 函 
数 ( 即 使 用 线性 激活 函数 : a(x)=x) 


e dilation rate : 整数 或 由 单个 整数 构成 的 listtuple， 指 定 dilated convolution 中 的 
膨胀 比例 。 任 何不 为 1 的 dilation_rata 均 与 任何 不 为 1 的 strides 均 不 兼容 。 


e USe_bias: 布 尔 值 ， 是否 使 用 偏 置 项 


e kernel initializer : 权 值 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 囊 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 initializers 


e bias initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 事 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 initializers 


e kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 
e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 
e activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 
e kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 


e bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 


输入 shape 


形 如 (samples > steps > input dim) 的 3D 张 量 


输出 shape 


形 如 (samples > new_steps > nb filter) 的 3D 张 量 ， 因 为 有 向 量 填充 的 原 
' steps 的 值 会 改变 


【Tips】 可 以 将 Convolution1D 看 作 Convolution2D 的 快捷 版 ， 对 例子 中 (10，32 ) 
的 信号 进行 1D 卷 积 相 当 于 对 其 进行 卷 积 核 为 (filter length, 32) 的 2D 卷 积 。 
【@3rduncle 】 


Conv2D Æ 


keras.layers.convolutional.Conv2D(filters, kernel_size, strides=( 
1, 1), padding='valid', data_format=None, dilation_rate=(1, 1), 
activation=None, use_bias=True, kernel_initializer='glorot_unifo 
rm', bias_initializer='zeros', kernel_regularizer=None, bias_reg 
ularizer=None, activity_regularizer=None, kernel_constraint=None 
, bias_constraint=None) 


«| BEEN Mi 





二 维 卷 积 层 ， 即 对 图 像 的 空域 卷 积 。 该 层 对 二 维 输入 进行 滑动 窗 卷 积 ， 当 使 用 该 层 
作为 第 一 层 时 ， 应 提供 input shape 参数 。 例 如 input shape = 
(128,128,3) 代表 128*128 的 彩色 RGB 图 像 


( data_format='channels_last' ) 
参数 


e filters : 卷 积 核 的 数目 ( 即 输出 的 维度 ) 


e kernel size : 单个 整数 或 由 两 个 整数 构成 的 listtuple， 卷 积 核 的 宽度 和 长 度 。 
如 为 单个 整数 ， 则 表示 在 各 个 空间 维度 的 相同 长 度 。 


e strides: 单个 整数 或 由 两 个 整数 构成 的 list/tuple， 为 卷 积 的 步 长 。 如 为 单个 整 
数 ， 则 表示 在 各 个 空间 维度 的 相同 步 长 。 任 何不 为 1 的 strides 均 与 任何 不 为 1 的 
dilation_rata 均 不 兼容 


e padding : 补 0 策 略 ， 为 “valid”, “same” ° “Valid" 代 表 只 进行 有 效 的 卷 积 ， 即 对 
边界 数据 不 处 理 。“same” 代 表 保 留 边 界 处 的 卷 积 结果 ， 通 常会 导致 输出 shape 
与 输入 shape 相 同 。 

e activation: 激活 函数 ， 为 预定 义 的 激活 函数 名 (参考 激活 函数 ) ， 或 逐 元 素 

(element-wise) 的 Theano 元 数 。 如 果 不 指定 该 参数 ， 将 不 会 使 用 任何 激活 苑 
Jk (即使 用 线性 激活 函数 : a(x)=x) 


e dilation rate : 单个 整数 或 由 两 个 个 整数 构成 的 listtuple， 指 定 dilated 
convolution 中 的 膨胀 比例 。 任 何不 为 1 的 dilation_rata 均 与 任何 不 为 1 的 strides 
均 不 兼容 。 

e data format : 字符 囊 ，“channels _ first 或 "channels last" > — > 4X & El 45 55 38 


道 维 的 位 置 。 该 参数 是 Keras 1.x? f9image dim ordering > "channels last" st 
应 原本 的 “tf » "channels first 对 应 原本 的 "th"。 以 128x128 的 RGB 图 像 为 


f| > “channels_first” 244 3x4 2222 A (3,128,128) ， 而 “channels_last" 应 将 数 
据 组 织 为 (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 
的 值 ， 若 从 未 设置 过 ， 则 为 “channels_ last" » 


e Use_bias: 布 尔 值 ， 是 否 使 用 偏 置 项 


e kernel initializer : 权 值 初 始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 jnitializers 


e bias initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 initializers 


e kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 
e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 
e activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 
e kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 


e bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 


输入 shape 
‘channels_first 模 式 下 ， 输 入 形 如 (samples,channels > rows > cols) 的 4D 张 量 
‘channels_last 模 式 下 ， 输 入 形 如 (samples > rows * cols > channels) 的 4D 张 量 


注意 这 里 的 输入 shape 指 的 是 函数 内 部 实现 的 输入 shape ， 而 非 苑 数 接口 应 指定 
的 input_shape ， 请 参考 下 面 提供 的 例子 。 


输出 shape 
‘channels_first' 模 式 下 ， 为 形 如 (samples > nb filter, new rows, new cols) 的 4D 
张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples > new. rows, new. cols > nb filter) 的 4D 
张 量 


输出 的 行列 数 可 能 会 因为 填充 方法 而 改变 


SeparableConv2D Æ% 


keras.layers.convolutional.SeparableConv2D(filters, kernel_size, 
strides=(1, 1), padding='valid', data_format=None, depth_multip 
lier=1, activation=None, use_bias=True, depthwise_initializer='g 
lorot_uniform', pointwise_initializer='glorot_uniform', bias_ini 
tializer='zeros', depthwise_regularizer=None, pointwise_regulari 
zer=None, bias_regularizer=None, activity_regularizer=None, dept 
hwise_constraint=None, pointwise_constraint=None, bias_constrain 
t=None) 


该 层 是 在 深度 方向 上 的 可 分 离 卷 积 


分 离 卷 积 首 先 按 深度 方向 进行 卷 积 (对 每 个 输入 通道 分 别 卷 积 ) ， 然 后 和 逐 点 进行 
卷 积 ， 将 上 一 步 的 卷 积 结果 混合 到 输出 通道 中 。 参 数 depth multiplier 控制 了 
在 depthwise 卷 积 (第 一 步 ) 的 过 程 中 ， 每 个 输入 通道 信号 产生 多 少 个 输出 通道 


直观 来 说 ， 可 分 离 卷 积 可 以 看 做 讲 一 个 卷 积 核 分 解 为 两 个 小 的 卷 积 核 ， 或 看 作 
Inception 模 块 的 一 种 极端 情况 。 


当 使 用 该 层 作 为 第 一 层 时 ， 应 提供 input shape 参数 。 例 如 input shape = 
(3,128,128) 代表 128*128 的 彩色 RGB 图 像 


参数 
e filters : 卷 积 核 的 数目 ( 即 输出 的 维度 ) 


e kernel size : bao qub M AM D Ad ， 卷 积 核 的 宽度 和 长 
度 。 如 为 单个 整数 ， 则 表示 在 各 个 空间 维度 的 相同 长 度 


e strides: 单个 整数 或 由 两 个 整数 构成 的 listtuple， 为 卷 积 的 步 长 。 如 为 单个 整 
数 ， 则 表示 在 各 个 空间 维度 的 相同 步 长 。 任 何不 为 1 的 strides 均 与 任何 不 为 1 的 
dilation_rata 均 不 兼容 


e padding : 补 0 策略 ， 为 “valid”, “same”。“valid" 代 表 只 进行 有 效 的 卷 积 ， 即 对 
边界 数据 不 处 理 。"*same” 代 表 保 留 边 界 处 的 卷 积 结果 ， 通 常会 导致 输出 shape 
与 输入 shape 相 同 。 


activation : 激活 函数 ， 为 预定 义 的 激活 函数 名 (参考 激活 函数 ) ， 或 逐 元 素 
(element-wise) 的 Theano 函 数 。 如 果 不 指 定 该 参数 ， 将 不 会 使 用 任何 激活 函 
数 ( 即 使 用 线性 激活 函数 : a(x)=x) 


dilation_rate : 单个 整数 或 由 两 个 个 整数 构成 的 listtuple， 指 定 dilated 
convolution 中 的 膨胀 比例 。 任 何不 为 1 的 dilation_rata 均 与 任何 不 为 1 的 strides 
均 不 兼容 。 


data format : 字符 囊 ，“channels first* 或 ‘channels_last" 之 一 ， 代 表 图 像 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image_dim_ordering ，“channels_last” 对 
应 原本 的 “tf*，“channels_first* 对 应 原本 的 “th”。 以 128x128 的 RGB 图 像 为 

例 ，“channels_first" 应 将 数据 组 织 为 (3,128,128) > "channels last" = 4 XX 
据 组 织 为 (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 
的 值 ， 若 从 未 设置 过 ， 则 为 “channels last" » 


use_bias: 布 尔 值 ， 是否 使 用 偏 置 项 
depth multiplier : 在 按 深 度 卷 积 的 步骤 中 ， 每 个 输入 通道 使 用 多 少 个 输出 通道 


kernel_initializer : 权 值 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 串 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 ijnitializers 


bias initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 initializers 


depthwise regularizer : 施加 在 按 深度 卷 积 的 权重 上 的 正则 项 ， 为 Regularizer 
对 其 


pointwise regularizer : 施加 在 按 点 卷 积 的 权重 上 的 正则 项 ， 为 Regularizer 对 
R 


kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 
bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 
activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 
kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 
bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 


depthwise constraint : 施加 在 按 深度 卷 积 权重 上 的 约束 项 ， 为 Constraints 对 
R 


e pointwise_constraint 施 加 在 按 点 卷 积 权重 的 约束 项 ， 为 Constraints 对 象 


输入 Shape 
‘channels_first 模 式 下 ， 输 入 形 如 (samples,channels，rows，cols) 的 4D 张 量 
‘channels_last 模 式 下 ， 输 入 形 如 (samples，rows * cols > channels) 的 4D 张 量 


注意 这 里 的 输入 shape 指 的 是 函数 内 部 实现 的 输入 shape， 而 非 函数 接口 应 指定 
的 input_shape ， 请 参考 下 面 提供 的 例子 。 


输出 shape 


‘channels_first' 模 式 下 ， 为 形 如 (samples > nb filter, new rows, new cols) 的 4D 
张 量 
‘channels_last" 模 式 下 ， 为 形 如 (samples > new rows, new cols > nb filter) 的 4D 
张 量 


输出 的 行列 数 可 能 会 因为 填充 方法 而 改变 


Conv2DTranspose 技 


keras.layers.convolutional.Conv2DTranspose(filters, kernel size, 
strides=(1, 1), padding-'valid', data format-zNone, activation=N 
one, use bias-True, kernel initializer-'glorot uniform', bias in 
itializer-'zeros', kernel regularizer-zNone, bias regularizer-zNone 
, activity regularizer-zNone, kernel constraint-None, bias constr 


aint=None) 

Ki = 2] 
该 层 是 转 置 的 卷 积 操作 ( 反 卷 积 ) 。 需 要 反 卷 积 的 情况 通常 发 生 在 用 户 想 要 对 一 个 
普通 卷 积 的 结果 做 反方 向 的 变换 。 例 如 ， 将 具有 该 卷 积 层 输出 shape 的 tensor 转 换 

为 具有 该 卷 积 层 输入 shape 的 tensor。 同 时 保留 与 卷 积 层 兼容 的 连接 模式 。 


当 使 用 该 层 作 为 第 一 层 时 ， 应 提供 input shape 参数 。 例 如 input shape = 
(3,128,128) 代表 128*128 的 彩色 RGB 图 像 


参数 


e filters: 卷 积 核 的 数目 ( 即 输出 的 维度 ) 


e kernel_size : te lg 卷 积 核 的 宽度 和 长 
度 。 如 为 单个 整数 ， 则 表示 在 各 个 空间 维度 的 相同 长 度 


e strides: 单个 整数 或 由 两 个 整数 构成 的 listtuple， 为 卷 积 的 步 长 。 如 为 单个 整 
数 ， 则 表示 在 各 个 空间 维度 的 相同 步 长 。 任 何不 为 1 的 strides 均 与 任何 不 为 1 的 
dilation_rata 均 不 兼容 


e padding : 补 0 策略 ， 为 “valid”, “same”。"Valid" 代 表 只 进行 有 效 的 着 积 ， 即 对 
边界 数据 不 处 理 。*same” 代 表 保 留 边 界 处 的 卷 积 结果 ， 通 常会 导致 输出 shape 
与 输入 shape 相 同 。 


e activation : BiG BR > 为 预定 义 的 激活 函数 名 (参考 激活 函数 ) ? 或 逐 元 素 
(element-wise) 的 Theano 忒 数 。 如 果 不 指定 该 参数 ， 将 不 会 使 用 任何 激活 郊 
数 (即使 用 线性 激活 函数 : a(x)=x) 


e dilation rate : 单个 整数 或 由 两 个 个 整数 构成 的 list/tuple， 指 定 dilated 
convolution 中 的 膨胀 比例 。 任 何不 为 1 的 dilation_rata 均 与 任何 不 为 1 的 strides 
均 不 兼容 。 


e data format : 字符 囊 ，“channels first* 或 ‘channels_last* 之 一 ， 代 表 图 像 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image_dim_ordering ，“channels_last” 对 
应 原本 的 “tf ，“channels_first” 对 应 原本 的 “th”。 以 128x128 的 RGB 图 像 为 
例 ，“channels_first* 应 将 数据 组 织 为 (3,128,128) ， 而 “channels_last" 应 将 数 
据 组 织 为 (128,128,3) 。 该 参数 的 默认 值 是 ~/ ,keras/keras.json PRA 
的 值 ， 若 从 未 设置 过 ， 则 为 “channels last" » 


e Use_bias: 布 尔 值 ， 是 否 使 用 偏 置 项 


e kernel initializer : 权 值 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 囊 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 initializers 


e bias initializer: 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 jnitializers 


e kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 


e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 


e activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 
e kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 


e bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 


输入 Shape 
'channels first 模 式 下 ， 输 入 形 如 (samples,channels，rows，cols) 的 4D 张 量 
channels_last 模 式 下 ， 输 入 形 如 (samples，rows，cols，channels) 的 4D 张 量 


注意 这 里 的 输入 shape 指 的 是 函数 内 部 实现 的 输入 shape， 而 非 苑 数 接口 应 指定 
的 input_shape ， 请 参考 下 面 提供 的 例子 。 


输出 shape 


‘channels_first' 模 式 下 ， 为 形 如 (samples > nb filter, new rows, new cols) 的 4D 
张 量 
‘channels_last" 模 式 下 ， 为 形 如 (samples > new rows, new cols > nb filter) 的 4D 
张 量 


输出 的 行列 数 可 能 会 因为 填充 方法 而 改变 


e Aguide to convolution arithmetic for deep learning 
e Transposed convolution arithmetic 
e Deconvolutional Networks 


Conv3D Æ 


keras.layers.convolutional.Conv3D(filters, kernel_size, strides=( 


1, 


, 


1, 1), padding-'valid', data format-None, dilation rate-(1, 1 
1), activation=None, use bias-True, kernel initializer-'glorot 


.uniform', bias initializer-'zeros', kernel regularizer-zNone, bi 
as regularizer-None, activity regularizer-zNone, kernel constrain 


t 


aj 


None, bias_constraint=None) 


— Em 





三 维 卷 积 对 三 维 的 输入 进行 滑动 窗 卷 积 ， 当 使 用 该 层 作 为 第 一 层 时 ， 应 提 
ft input shape 参数 。 例 如 input shape = (3,10,128,128) 代表 对 10 帧 
128*128 的 彩色 RGB 图 像 进 行 卷 积 。 数 据 的 通道 位 置 仍然 有 data format 参数 指 


Æ oe 


数 


E: 


filters : 卷 积 核 的 数目 ( 即 输出 的 维度 ) 


kernel size : 单个 整数 或 由 3 个 整数 构成 的 listtuple， 卷 积 核 的 宽度 和 长 度 。 如 
为 单个 整数 ， 则 表示 在 各 个 空间 维度 的 相同 长 度 。 


strides : 单个 整数 或 由 3 个 整数 构成 的 list/tuple， 为 卷 积 的 步 长 。 如 为 单个 整 
数 ， 则 表示 在 各 个 空间 维度 的 相同 步 长 。 任 何不 为 1 的 strides 均 与 任何 不 为 1 的 
dilation_rata 均 不 兼容 


padding : 补 0 策略 ， 为 “valid”, “same”。"Valid" 代 表 只 进行 有 效 的 卷 积 ， 即 对 

边界 数据 不 处 理 。“same” 代 表 保 留 边 界 处 的 卷 积 结果 ， 通 常会 导致 输出 shape 

与 输入 shape 相 同 。 

activation : 激活 函数 ， 为 预定 义 的 激活 函数 名 (参考 激活 函数 ) c RATE 
(element-wise) 的 Theano 元 数 。 如 果 不 指定 该 参数 ， 将 不 会 使 用 任何 激活 苑 

数 (即使 用 线性 激活 函数 : a(x)=x) 


dilation rate : 单个 整数 或 由 3 个 个 整数 构成 的 list/tuple， 指 定 dilated 
convolution 中 的 膨胀 比例 。 任 何不 为 1 的 dilation_rata 均 与 任何 不 为 1 的 strides 
均 不 兼容 。 

data format: #4 * "channels first" Xchannels last" 之 一 ， 代 表 数 据 的 通 


道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image_dim_ordering ，“channels_last” 对 
应 原本 的 “tf ，“channels_first” 对 应 原本 的 “th”。 以 128x128x128 的 数据 为 


fä] > “channels_first” s Jt 2x48 2022 A (3,128,128,128) > "channels last" E 
将 数据 组 织 为 (128,128,128,3) 。 该 参数 的 默认 值 
是 ~/.keras/keras.json 中 设置 的 值 ， 若 从 未 设置 过 ， 则 


A “channels_last” » 
e Use_bias: 布 尔 值 ， 是否 使 用 偏 置 项 


e kernel initializer : 权 值 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 囊 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 initializers 


e bias initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 initializers 


e kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 
e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 
e activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 
e kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 


e bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 


输入 shape 


‘channels_first 模 式 下 ， 输 入 应 为 形 如 (samples > channels > input_dim1， 
input dim2, input dim3) 的 5D 张 量 


‘channels_last 模 式 下 ， 输 入 应 为 形 如 (samples > input dim1 > input dim2, 
input dim3 > channels) 的 5D 张 量 


这 里 的 输入 shape 指 的 是 函数 内 部 实现 的 输入 Shape， 而 非 函数 接口 应 指定 
的 input_shape 。 


Cropping1D/Z 


keras.layers.convolutional.Cropping1D(cropping=(1, 1)) 


在 时 间 轴 (axis1) 上 对 1D 输 入 (即时 间 序 列 ) 进行 裁剪 
参数 
e cropping: 长 为 2 的 tuple， 指 定 在 序列 的 首尾 要 裁剪 掉 多 少 个 元 素 


输入 shape 


e 形 如 (samples，axis to_crop，features) 的 3D 张 量 


输出 shape 


e 形 如 (samples * cropped axis > features) 的 3D 张 量 


Cropping2D/Z 


keras.layers.convolutional.Cropping2D(cropping=((9, ©), (9, ©)), 
data_format=None) 


MER > RUP d i 6 LAH 


m 
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对 2D 输 入 (AR) 进行 裁剪 ， 将 
参数 


e cropping : 长 为 2 的 整数 tuple， 分 别 为 帘 和 高 方向 上 头 部 与 尾部 需要 裁剪 掉 的 
元 素数 


e data format : 字符 串 ，“channels _first" 或 "channels last" 之 一 ， 代 表 图 像 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image dim ordering > "channels last" 3t 
应 原本 的 "tf ，“channels first 对 应 原本 的 “th”。 以 128x128 的 RGB 图 像 为 
i] * "channels first" 应 将 数据 组 织 为 《3,128,128) ， 而 “channels_last" 应 将 数 
据 组 织 为 (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 
的 值 ， 若 从 未 设置 过 ， 则 为 “channels_last”。 


输入 shape 


H że (samples > depth, first axis to crop, second axis to crop) 


输出 shape 


形 如 (samples, depth, first_cropped_axis, second_cropped_axis) 的 4D 张 量 


Cropping3D Æ 


keras.layers.convolutional.Cropping3D(cropping-((i, 1), (1, 1), ( 
1, 1)), data formatzNone) 


对 2D 输 入 (AR) 进行 裁剪 
参数 


e cropping : 长 为 3 的 整数 tuple， 分 别 为 三 个 方向 上 头 部 与 尾部 需要 裁剪 掉 的 元 
素数 


e data format : 字符 串 ，“channels _first" 或 "channels_ last" 之 一 ， 代 表 数 据 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image dim ordering > "channels last" 3t 
应 原本 的 "tf » "channels first" 对 应 原本 的 “th”。 以 128x128x128 的 数据 为 
4] * "channels first" 5 3 2x48 2822 7; (3,128,128,128) > "channels last'z 
将 数据 组 织 为 (128,128,128,3) 。 该 参数 的 默认 值 
是 ~/.keras/keras.json 中 设置 的 值 ， 若 从 未 设置 过 ， 则 
A “channels_last” » 


iat A Shape 


形 如 (samples, depth, first axis to crop, second axis to crop, 
third axis to crop)&25D7K € 


输出 shape 


形 如 (samples, depth, first_cropped_axis, second_cropped_axis, 
third_cropped_axis)4075D#k € 


UpSampling1D/Z 
keras.layers.convolutional.UpSampling1D(size=2) 

在 时 间 轴 上 ， 将 每 个 时 间 步 重复 length 次 

参数 


e size: 上 采样 因子 


输入 Shape 


e Æ (samples > steps > features) 的 3D 张 量 


输出 shape 


e 形 如 (samples * upsampled steps > features) 的 3D 张 量 


UpSampling2D Æ 


keras.layers.convolutional.UpSampling2D(size=(2, 2), data_format= 
None) 


_— ee | 


将 数据 的 行 和 列 分 别 重复 size[0] 和 size[1] 次 
参数 


e size : 整数 tuple， 分 别 为 行 和 列 上 采样 因子 


e data format : #4 # > “channels _first’2“channels_last’2—° KAA 55 38 
道 维 的 位 置 。 该 参数 是 Keras 1.x Y Jimage dim ordering > "channels last" 3t 
应 原本 的 “tf » "channels first" 对 应 原本 的 "th"。 以 128x128 的 RGB 图 像 为 
f| ，“channels first 应 将 数据 组 织 为 〈3,128,128) ， 而 “channels_last" 应 将 数 
据 组 织 为 (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 
的 值 ， 若 从 未 设置 过 ， 则 为 “channels last”。 


输入 shape 
'channels first 4€ A, T > XÆ% 4e (samples > channels, rows > cols) 的 4D 张 量 


'channels last€ A F > 73764» (samples > rows, cols > channels) 的 4D 张 量 


输出 shape 


‘channels_first 模 式 下 ， 为 形 如 (samples > channels, upsampled rows, 
upsampled cols) 的 4D 张 量 


'channels last€ ATF > XÆ% (samples > upsampled rows, upsampled cols > 
channels) 的 4D 张 量 


UpSampling3D/Z 


keras.layers.convolutional.UpSampling3D(size=(2, 2, 2), data for 
mat=None) 


将 数据 的 三 个 维度 上 分 别 重 复 size[0]、size[1] 和 ize[2] 次 


本 层 目前 只 能 在 使 用 Theano 为 后 端 时 可 用 


ud 


参数 


e size: 长 为 3 的 整数 tuple， 代 表 在 三 个 维度 上 的 上 采样 因子 


e data format : #4 # > “channels _first”2“channels_last’2— > KA AE 55 38 
道 维 的 位 置 。 该 参数 是 Keras 1.x Y Jimage dim ordering > "channels last" 3t 
应 原本 的 “tf » "channels first 对 应 原本 的 "th"。 以 128x128x128 的 数据 为 
例 ，“channels_first* 应 将 数据 组 织 为 (3,128,128,128) > m“channels_last’& 
将 数据 组 织 为 (128,128,128,3) 。 该 参数 的 默认 值 
是 -/.keras/keras.json 中 设置 的 值 ， 若 从 未 设置 过 ， 则 
A “channels_last” ° 


iat A Shape 


'channels first 4€ A, F °> 7776 4» (samples, channels, len_pool_dim1, 
len pool dim2, len pool dim3) 的 5D 张 量 


'channels last€ A F > 47442 (samples, len pool dim1, len pool dim2, 
len pool dim3 > channels, ) 的 5D 张 量 


输出 shape 


‘channels_first 模 式 下 ， 为 形 如 (samples, channels, dim1, dim2, dim3) 的 5D 张 量 


‘channels_last" 模 式 下 ， 为 形 如 (samples, upsampled dim1, upsampled dim2, 
upsampled dim3,channels,) 的 5D 张 量 


ZeroPadding1D % 


keras.layers.convolutional .ZeroPadding1D(padding=1 ) 
对 1D 输 入 的 首尾 端 (如 时 域 序列 ) 填充 0， 以 控制 卷 积 以 后 向 量 的 长 度 
参数 


e padding : 整数 ， 表 示 在 要 填充 的 轴 的 起 始 和 结束 处 填充 0 的 数目 ， 这 里 要 填充 
的 轴 是 轴 1 (第 1 维 ， 第 0 维 是 样本 数 ) 


iat A Shape 


形 如 (samples > axis to pad’ features) 的 3D 张 量 


输出 shape 


形 如 (samples > paded axis，features) 的 3D 张 量 


ZeroPadding2D Æ 


keras.layers.convolutional.ZeroPadding2D(padding=(1, 1), data fo 
rmat=None) 


对 2D 输 入 (AH) 的 边界 填充 0， 以 控制 卷 积 以 后 特征 图 的 大 小 
参数 


e padding : 整数 tuple， 表 示 在 要 填充 的 轴 的 起 始 和 结束 处 填充 0 的 数目 ， 这 里 要 
填充 的 轴 是 轴 3 和 轴 4 ( 即 在 'th' 模 式 下 图 像 的 行 和 列 ， 在 'channels_last' 模 式 下 
要 填充 的 则 是 轴 2，3 ) 


e data format : #4 # > “channels_first”2“channels_last’2—° KAA 4 55 38 
道 维 的 位 置 。 该 参数 是 Keras 1.Xx 中 的 image dim ordering > "channels last" 3t 
应 原本 的 “tf > "channels first 对 应 原本 的 "th"。 以 128x128 的 RGB 图 像 为 
f| ，“channels first 应 将 数据 组 织 为 〈3,128,128) ， 而 “channels_last" 应 将 数 
据 组 织 为 (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 
的 值 ， 若 从 未 设置 过 ， 则 为 “channels last”。 


输入 shape 


‘channels_first' 模 式 下 ， 形 如 (samples > channels ° first axis to pad ° 
second axis to pad) 的 4D 张 量 


‘channels_last" 模 式 下 ， 形 如 (samples ° first axis to pad > second axis to pad, 
channels) 的 4D 张 量 


输出 shape 


‘channels_first’## A. F > 764» (samples > channels > first paded axis > 
second paded axis) 的 4D 张 量 


'channels last€ A F > 7/4» (samples ° first paded axis * second paded axis, 
channels) 的 4D 张 量 


ZeroPadding3D Æ 


keras.layers.convolutional.ZeroPadding3D(padding=(1, 1, 1), data 
_format=None) 


将 数据 的 三 个 维度 上 填充 0 


本 层 目 前 只 能 在 使 用 Theano 为 后 端 时 可 用 
参数 


padding : 整数 tuple ， 表 示 在 要 卉 充 的 轴 的 起 始 和 结束 处 填充 0 的 数目 ， 这 里 要 填充 
的 轴 是 轴 3， 轴 4 和 轴 5 ，'channels_last' 模 式 下 则 是 轴 2，3 和 4 


e data format : 字符 串 ，“channels first" "channels last" 之 一 ， 代 表 数 据 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image dim ordering > "channels last" 3t 
应 原本 的 "tf ，“channels first 对 应 原本 的 “th”。 以 128x128x128 的 数据 为 
4] * "channels first" 应 将 数据 组 织 为 《3,128,128,128) ， 而 “channels_last" 应 
将 数据 组 织 为 (128,128,128,3) 。 该 参数 的 默认 值 
是 ~/.keras/keras.json 中 设置 的 值 ， 若 从 未 设置 过 ， 则 


为 “channels_last”。 


输入 shape 


‘channels_first 模 式 下 ， 为 形 如 (samples, channels, first axis to pad ° 
first axis to pad, first axis to pad,) 的 5D 张 量 


‘channels_last" 模 式 下 ， 为 形 如 (samples, first axis to pad ° first axis to pad, 
first axis to pad, channels) 的 5D 张 量 


输出 shape 


‘channels_first 模 式 下 ， 为 形 如 (samples, channels, first_paded_axis > 
second_paded_axis, third_paded_axis,) 的 5D 张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples, len_pool_dim1, len pool dim2, 
len_pool_dim3 > channels, ) 的 5D 张 量 


池 化 层 


MaxPooling1D/Z 


keras.layers.pooling.MaxPooling1D(pool_size=2, strides=None, pad 


ding='valid' ) 
对 时 域 1D 信 号 进行 最 大 值 池 化 


参数 


e pool size : 整数 ， 池 化 窗口 大 小 


e strides : 整数 或 None， 下 采样 因子 ， 例 如 设 2 将 会 使 得 输出 shape 为 输入 的 一 
X € None I 3i 4&7 pool size 。 


e padding : ‘valid’ 34 # ‘same’ 


输入 Shape 


e Æ (samples > steps > features) 的 3D 张 量 


输出 shape 


e 形 如 (samples，downsampled_steps > features) 的 3D 张 量 


MaxPooling2D/Z 


keras.layers.pooling.MaxPooling2D(pool size-(?, 2), strides=None 
, padding-'valid', data format-zNone) 


为 空域 信号 施加 最 大 值 池 化 


参数 


pool size : 整数 或 长 为 2 的 整数 tuple， 代 表 在 两 个 方向 (BR KF) 上 的 下 
采样 因子 ， 如 取 (2，2) 将 使 图 片 在 两 个 维度 上 均 变 为 原 长 的 一 半 。 为 整数 意 
为 各 个 维度 值 相同 且 为 该 数字 。 


strides : 整数 或 长 为 2 的 整数 tuple， 或 者 None， 步 长 值 。 
border mode : valid' 或 者 'same' 


data format : 字符 串 ，“channels_first" 或 “channels last" 之 一 ， 代 表 图 像 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image dim ordering > "channels last" 3t 
应 原本 的 "tf > “channels_first” 3t & JR Aad “th” © YA128x1284 RGB Bl RA 

fä] > “channels_first” 5 Xt 2x48 282A A (3,128,128) > "channels last" & Jt x 
YEAR A (128,128,3) 。 该 参数 的 默认 值 是 ~/ .keras/keras.json 中 设置 


的 值 ， 若 从 未 设置 过 ， 则 为 “channels last”。 


输入 shape 


'channels first 4€ A, T > XÆ% 4e (samples > channels, rows > cols) 的 4D 张 量 


'channels last/€ A F > 73764» (samples > rows, cols > channels) 的 4D 张 量 


输出 shape 


‘channels_first 模 式 下 ， 为 形 如 (samples > channels, pooled rows, 
pooled cols) 的 4D 张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples > pooled rows, pooled_cols; 
channels) 的 4D 张 量 


MaxPooling3D/Z 


keras.layers.pooling.MaxPooling3D(pool size-(?, 2, 2), strides=N 


one, padding-'valid', data formatzNone) 


为 3D 信 号 (空域 或 时 空域 ) 施加 最 大 值 池 化 
本 层 目 前 只 能 在 使 用 Theano 为 后 端 时 可 用 
参数 
e pool size : 整数 或 长 为 3 的 整数 tuple， 代 表 在 三 个 维度 上 的 下 采样 因子 ， 如 取 
(2，2，2) 将 使 信号 在 每 个 维度 都 变 为 原来 的 一 半 长 。 
e strides : 整数 或 长 为 3 的 整数 tuple， 或 者 None， 步 长 值 。 
e padding : ‘valid’ .#‘same’ 


e data format : #4 $ > "channels _first" 或 "channels_ last" 之 一 ， 代 表 数 据 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image dim ordering > "channels last" 3t 
应 原本 的 "tf * "channels first 对 应 原本 的 “th”。 以 128x128x128 的 数据 为 
例 ，“channels_first* 应 将 数据 组 织 为 (3,128,128,128) ， 而 "channels_last" 应 
将 数据 组 织 为 (128,128,128,3). 。 该 参数 的 默认 值 
是 -/.keras/keras.json 中 设置 的 值 ， 若 从 未 设置 过 ， 则 
A “channels_last” ° 


‘at A Shape 


‘channels first € A F > 4742 (samples, channels, len_pool_dim1, 
len pool dim2, len pool dim3) 的 5D 张 量 


'channels last€ A F > 73764» (samples, len pool dim1, len pool dim2, 
len pool dim3 > channels, ) 的 5D 张 量 


输出 shape 


‘channels_first' 模 式 下 ， 为 形 如 (samples, channels, pooled_dim1, pooled dim2, 
pooled dim3) 的 5D 张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples, pooled_dim1, pooled_dim2, 
pooled dim3,channels,) 的 5D 张 量 


AveragePooling1D Æ 


keras.layers.pooling.AveragePooling1D(pool_size=2, strides=None, 
padding='valid' ) 


对 时 域 1D 信 号 进行 平均 值 池 化 


参数 


e pool size: 整数 ， 池 化 窗口 大 小 


e strides : 整数 或 None， 下 采样 因子 ， 例 如 设 2 将 会 使 得 输出 shape 为 输入 的 一 
半 ， 若 为 None 则 默认 值 为 pool_size 。 


e padding : valid' 或 者 'same' 


输入 Shape 


e Æ (samples > steps > features) 的 3D 张 量 


输出 shape 


e 形 如 (samples，downsampled_steps > features) 的 3D 张 量 


AveragePooling2D Æ% 


keras.layers.pooling.AveragePooling2D(pool_size=(2, 2), strides= 
None, padding='valid', data_format=None) 


为 空域 信号 施加 平均 值 池 化 


pool size : 整数 或 长 为 2 的 整数 tuple， 代 表 在 两 个 方向 (RB KF) 上 的 下 
采样 因子 ， 如 取 (2，2) 将 使 图 片 在 两 个 维度 上 均 变 为 原 长 的 一 半 。 为 整数 意 
为 各 个 维度 值 相同 且 为 该 数字 。 


strides : 整数 或 长 为 2 的 整数 tuple， 或 者 None， 步 长 值 。 
border mode : valid' 或 者 'same' 


data format : 字符 串 ，“channels_first" 或 “channels last" 之 一 ， 代 表 图 像 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image dim ordering > "channels last" 3t 
应 原本 的 "tf ，“channels first 对 应 原本 的 “th”。 以 128x128 的 RGB 图 像 为 

iā] > *channels first 应 将 数据 组 织 为 《3,128,128) ， 而 “channels_last" 应 将 数 
WRA (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 


的 值 ， 若 从 未 设置 过 ， 则 为 “channels_last”。 


输入 shape 
‘channels_first 模 式 下 ， 为 形 如 (samples > channels, rows > cols) 的 4D 张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples，rows, cols > channels) 的 4D 张 量 


输出 shape 


‘channels_first 模 式 下 ， 为 形 如 (samples > channels, pooled rows, 
pooled cols) 的 4D 张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples > pooled rows, pooled cols > 
channels) 的 4D 张 量 


AveragePooling3D Æ 


keras.layers.pooling.AveragePooling3D(pool_size=(2, 2, 2), strid 


es=None, padding='valid', data_format=None) 


为 3D 信 号 (空域 或 时 空域 ) 施加 平均 值 池 化 


本 层 目 前 只 能 在 使 用 Theano 为 后 端 时 可 用 


e pool size : 整数 或 长 为 3 的 整数 tuple， 代 表 在 三 个 维度 上 的 下 采样 因子 ， 如 取 
(2，2，2) 将 使 信号 在 每 个 维度 都 变 为 原来 的 一 半 长 。 

e strides : 整数 或 长 为 3 的 整数 tuple， 或 者 None， 步 长 值 。 

e padding : ‘valid’. # ‘same’ 

e data format : 字符 串 ，“channels _first" 或 "channels_ last" 之 一 ， 代 表 数 据 的 通 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image dim ordering > "channels last" 3t 
应 原本 的 "tf > "channels first 对 应 原本 的 “th”。 以 128x128x128 的 数据 为 
例 ，“channels_first* 应 将 数据 组 织 为 (3,128,128,128) ， 而 “channels_last 应 
将 数据 组 织 为 (128,128,128,3). 。 该 参数 的 默认 值 


是 -/.keras/keras.json 中 设置 的 值 ， 若 从 未 设置 过 ， 则 
A “channels_last” » 


'channels first 4€ A F > 47442 (samples, channels, len_pool_dim1, 
len pool dim2, len pool dim3) 的 5D 张 量 


'channels last€ A F > 73764» (samples, len pool dim1, len pool dim2, 
len pool dim3 > channels, ) 的 5D 张 量 


输出 shape 


‘channels_first' 模 式 下 ， 为 形 如 (samples, channels, pooled dim1, pooled_dim2, 
pooled_dim3) 的 5D 张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples, pooled_dim1, pooled_dim2, 
pooled dim3,channels,) 的 5D 张 量 


GlobalMaxPooling1D % 


keras.layers.pooling.GlobalMaxPooling1D( ) 


对 于 时 间 信 号 的 全 局 最 大 池 化 


输入 Shape 


e Æ (samples > steps > features) 的 3D 张 量 


输出 shape 


e 形 如 (samples, features) 的 2D 张 量 


GlobalAveragePooling1D % 
keras.layers.pooling.GlobalAveragePooling1D( ) 
为 时 域 信 号 施加 全 局 平均 值 池 化 


输入 Shape 


e Æ (samples > steps > features) 的 3D 张 量 


输出 shape 


e 形 如 (samples, features) 的 2D 张 量 


GlobalMaxPooling2D Æ 


keras.layers.pooling.GlobalMaxPooling2D(dim_ordering='default' ) 


为 空域 信号 施加 全 局 最 大 值 池 化 


e data format : #4 # > “channels_first”2“channels_last’2—° KAA 4 55 38 
道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image dim ordering > "channels last" 3t 
应 原本 的 “tf » "channels first" 对 应 原本 的 "th"。 以 128x128 的 RGB 图 像 为 
f| ，“channels first 应 将 数据 组 织 为 〈3,128,128) ， 而 “channels_last" 应 将 数 
据 组 织 为 (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 
的 值 ， 若 从 未 设置 过 ， 则 为 “channels last”。 


输入 shape 
‘channels_first 模 式 下 ， 为 形 如 (samples，channels, rows > cols) 的 4D 张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples，rows, cols > channels) 的 4D 张 量 


输出 shape 


形 如 (nb_samples, channels) 的 2D 张 量 


GlobalAveragePooling2D Æ 


keras.layers.pooling.GlobalAveragePooling2D(dim_ordering='defaul 


为 空域 信号 施加 全 局 平均 值 池 化 


e data format : #4 # > “channels _first”2“channels_last’2—° KAA £5 55 38 
道 维 的 位 置 。 该 参数 是 Keras 1.Xx 中 的 image dim ordering > "channels last" 3t 
应 原本 的 “tf > "channels first" 对 应 原本 的 "th"。 以 128x128 的 RGB 图 像 为 
例 ，“channels first 应 将 数据 组 织 为 〈3,128,128) ， 而 “channels_last" 应 将 数 
据 组 织 为 (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 
的 值 ， 若 从 未 设置 过 ， 则 为 “channels last”。 


输入 shape 


channels_ first 模 式 下 ， 为 形 如 (samples > channels, rows > cols) 的 4D 张 量 


‘channels_last 模 式 下 ， 为 形 如 (samples，rows, cols > channels) 的 4D 张 量 


输出 shape 


形 如 (nb_samples, channels) 的 2D 张 量 


局 部 连接 层 LocallyConnceted 


LocallyConnected1D A 


keras.layers.local.LocallyConnectediD(filters, kernel size, stri 
des=1, padding-'valid', data format-None, activation=None, use b 
ias-True, kernel initializer-'glorot uniform', bias initializer- 
'zeros', kernel regularizer-zNone, bias regularizer-None, activit 
y regularizer-None, kernel constraint-None, bias constraint-None 


) 


HHH 参数 
* filters: 卷 积 核 的 数目 ( 即 输出 的 维度 ) 


* kernel size: 整数 或 由 单个 整数 构成 的 list/tuple， 卷 积 核 的 空域 或 时 域 窗 长 
度 


* strides: 整数 或 由 单个 整数 构成 的 ]ist/tuple， 为 卷 积 的 步 长 。 任 何不 为 1 的 st 
rides 均 与 任何 不 为 1 的 dilation rata 均 不 兼容 


* padding: 补 9 策 略 ， 目 前 仅 支 持 `Valid` (大 小 写 敏感 ) ，` same ` 可 能 会 在 将 来 
支持 。 


* activation : 激活 函数 ， 为 预定 义 的 激活 函数 名 (参考 [激活 函数 ](, . /other/ac 
tivations)) ， 或 逐 元 素 (element-wise) 的 Theano 函 数 。 如 果 不 指定 该 参数 ， 
将 不 会 使 用 任何 激活 函数 (即使 用 线性 激活 函数 : a(x)=x) 

* dilation rate: 整数 或 由 单个 整数 构成 的 Jist/tuple， 指 定 dilated convol 
ution 中 的 膨胀 比例 。 任 何不 为 1 的 dijlation_rata 均 与 任何 不 为 1 的 Strides 均 不 兼 


* USse_bjias: 布 尔 值 ， 是 否 使 用 偏 置 项 


* kernel_initializer : 权 值 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 事 ， 或 用 


于 初始 化 权重 的 初始 化 器 。 参 考 [initializers](../other/initializations) 


* bias initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 [initializers](../other/initializations ) 


* kernel_regularizer : 施加 在 权重 上 的 正则 项 ， 为 [Regularizer](../other 
/regularizers ) 对 象 


* bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 [Regularizer](../othe 
r/regularizers) 4 & 


* activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 [Regularizer](../oth 
er/regularizers) $ 


* kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 [Constraints](../other 
/constraints ) 对象 


* bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 [Constraints](../other/c 
onstraints) 对 象 


### 输入 shape 
形 如 (samples，steps，input_dim) 的 3D 张 量 
HHH 输出 shape 


形 如 (samples > new_steps > nb_filter) 的 3D 张 量 ， 因 为 有 向 量 填充 的 原因 ， `` 
“steps: 的 值 会 改变 


## LocallyConnected2D% 

"python 
keras.layers.local.LocallyConnected2D(filters, kernel size, stri 
des=(1, 1), padding-'valid', data format-None, activation=None, 
use bias-True, kernel initializer-'glorot uniform', bias initial 
izer-'zeros', kernel regularizer-zNone, bias regularizer-None, ac 
tivity regularizer-zNone, kernel constraint-None, bias constraint 
-None) 


HHH 参数 
* filters: 卷 积 核 的 数目 ( 即 输出 的 维度 ) 


* kernel size: 单个 整数 或 由 两 个 整数 构成 的 ]ist/tuple， 卷 积 核 的 宽度 和 长 度 
。 如 为 单个 整数 ， 则 表示 在 各 个 空间 维度 的 相同 长 度 。 


* strides: 单个 整数 或 由 两 个 整数 构成 的 list/tuple， 为 卷 积 的 步 长 。 如 为 单个 整 
数 ， 则 表示 在 各 个 空间 维度 的 相同 步 长 。 


* padding: 补 9 策 略 ， 目 前 仅 支 持 `Valid` (大 小 写 敏感 ) ，` same ` 可 能 会 在 将 来 
支持 。 


* activation : 激活 函数 ， 为 预定 义 的 激活 函数 名 (参考 [激活 函数 ](,. ./other/ac 
tivations)) ， 或 逐 元 素 (element-wise) 的 Theano 函 数 。 如 果 不 指定 该 参数 ， 
将 不 会 使 用 任何 激活 函数 (即使 用 线性 激活 函数 : a(x)=x) 


* data format : 字符 串 ，“channels_first” 或 “channels_last” 之 一 ， 代 表 图 
像 的 通道 维 的 位 置 。 该 参数 是 Keras 1.x 中 的 jmage_dim_ordering，“channels_ 
last” g RAS j"tf"*"channels first" I&R AI” th” » 4128x128 8] RGB A 
像 为 例 ，“channels_first”“ 应 将 数据 组 织 为 (3,128,128) » "channels last 
“应 将 数据 组 织 为 《128,128,3) 。 该 参数 的 默认 值 是 ```~/ .keras/keras.json、. 
` 中 设置 的 值 ， 若 从 未 设置 过 ， 则 为 “channels_last”。 


* USe_bias: 布 尔 值 ， 是 否 使 用 偏 置 项 


* kernel initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 
于 初始 化 权重 的 初始 化 器 。 参 考 [initializers](../other/initializations) 


* bias initializer : 权 值 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 串 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 [initializers](../other/initializations) 


* kernel_regularizer : 施加 在 权重 上 的 正则 项 ， 为 [Regularizer](../other 
/regularizers ) 对 象 


* bias_regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 [Regularizer](../othe 
r/regularizers) 对 象 


* activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 [Regularizer](../oth 
er/regularizers)s % 


* kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 [Constraints](../other 
/constraints) 对 象 


* bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 [Constraints](../other/c 
onstraints) 对 象 


### 输入 shape 


‘channels_first' 模 式 下 ， 输 入 形 如 (samples,channels，rows，cols) 的 4D 
张 量 


‘channels_last' 模 式 下 ， 和 输入 形 如 (samples > rows?’ cols > channels) 的 4D 
张 量 


注意 这 里 的 输入 shape 指 的 是 函数 内 部 实现 的 输入 shape ;而 非 函 数 接口 应 指定 的 `、`I 
nput shape `  `， 请 参考 下 面 提供 的 例子 。 


### 输出 shape 


‘channels_first' 模 式 下 ， 为 形 如 (samples > nb filter, new rows, new c 
ols) 的 4D 张 量 


‘channels_last’' 模 式 下 ， 为 形 如 (samples > new rows, new_cols > nb_filt 
er) 的 4D 张 量 


输出 的 行列 数 可 能 会 因为 填充 方法 而 改变 
HHH 例子 


~~ python 
# apply a 3x3 unshared weights convolution with 64 output filter 
S on a 32x32 image 
# with "data format-"channels last"': 
model - Sequential() 
model.add(LocallyConnected2D(64, (3, 3), input shape-(32, 32, 3) 


)) 
# now model.output_shape == (None, 30, 30, 64) 


# notice that this layer will consume (30*30)*(3*3*3*64) + (30*3 
0)*64 parameters 


# add a 3x3 unshared weights convolution on top, with 32 output 
filters: 

model.add(LocallyConnected2D(32, (3, 3))) 

# now model.output shape == (None, 28, 28, 32) 


46 A % Recurrent 


Recurrent 


keras.layers.recurrent.Recurrent(return_sequences=False, go_back 
wards=False, stateful=False, unroll=False, implementation=0) 


这 是 循环 层 的 抽象 类 ， 请 不 要 在 模型 中 直接 应 用 该 层 (因为 它 是 抽象 类 ， 无 法 实例 
化 任何 对 象 ) 。 请 使 用 它 的 子 类 LSTM ^ GRU 或 SimpleRNN ° 


所 有 的 循环 层 ( LSTM , GRU , SimpleRNN ) 都 服从 本 层 的 性 质 ， 并 接受 本 层 指定 
的 所 有 关键 字 参 数 。 


参数 


e weights : numpy array 的 list， 用 以 初始 化 权重 。 该 list 形 如 [(input_dim, 
output dim),(output dim, output dim),(output dim,)] 


e return sequences : 布尔 值 ， 默认 False ， 控 制 返回 类 型 。 若 为 True MR 
回 整 个 序列 ， 否 则 仅 返 回 输 出 序列 的 最 后 一 个 输出 


e go backwards : 布尔 值 ， 默认 为 False » X74 True ， 则 逆向 处 理 输入 序列 
并 返回 逆序 后 的 序列 


e stateful: 布尔 值 ， 默 认为 False > X7 True ， 则 一 个 batch 中 下 标 为 i 的 样 
本 的 最 终 状 态 将 会 用 作 下 一 个 batch 同 样 下 标的 样本 的 初始 状态 。 


unroll : 布尔 值 ， 默认 为 False * A True ， 则 循环 层 将 被 展开 ， 否 则 就 使 
用 符号 化 的 循环 。 当 使 用 TensorFlow 为 后 端 时 ， 循 环 网 络 本 来 就 是 展开 的 ， 因 
此 该 层 不 做 任何 事情 。 层 展开 会 占用 更 多 的 内 存 ， 但 会 加 速 RNN 的 运算 。 层 展 
开 只 适用 于 短 序列 。 


implementation : 0，1 或 2， 若 为 0， 则 RNN 将 以 更 少 但 是 更 大 的 矩阵 乘法 实 
现 ， 因 此 在 CPU 上 运行 更 快 ， 但 消耗 更 多 的 内 存 。 如 果 设 为 1， 则 RNN 将 以 更 
多 但 更 小 的 矩 阵 乘法 实现 ， 因 此 在 CPU 上 运行 更 慢 ， 在 GPU 上 运行 更 快 ， 并 且 


消耗 更 少 的 内 存 。 如 果 设 为 2 ( 仅 LSTM 和 GRU 可 以 设 为 2) ， 则 RNN 将 把 输入 
门 、 遗 忘 门 和 输出 门 含 并 为 单个 矩阵 ， 以 获得 更 加 在 GPU 上 更 加 高 效 的 实现 。 
注意 ，RNN dropout 必 须 在 所 有 门 上 共享 ， 并 导致 正则 效果 性 能 微弱 降低 。 


e input dim : 输入 维度 ， 当 使 用 该 层 为 模型 首 层 时 ， 应 指定 该 值 (或 等 价 的 指定 
input_shape) 


e input length : 当 输 入 序列 的 长 度 固定 时 ， 该 参数 为 输入 序列 的 长 度 。 当 需要 
在 该 层 后 连接 Flatten 层 ， 然 后 又 要 连接 Dense 层 时 ， 需 要 指定 该 参数 ， 
否则 全 连接 的 输出 无 法 计算 出 来 。 注 意 ， 如 果 循 环 层 不 是 网 络 的 第 一 层 ， 你 需 
要 在 网 络 的 第 一 层 中 指定 序列 的 长 度 (通过 input shape 指定 ) ° 

输入 shape 


形 如 (samples > timesteps > input dim) 的 3D 张 量 


输出 shape 


如 果 return sequences-True :返回 形 如 (samples > timesteps > output dim) 
的 3D 张 量 


否则 ， 返 回 形 如 (samples，output_dim) 的 2D 张 量 


| F 


# as the first layer in a Sequential model 
model = Sequential() 

model.add(LSTM(32, input_shape=(10, 64))) 
# now model.output_shape == (None, 32) 

# note: ‘None is the batch dimension. 


# the following is identical: 
model = Sequential() 
model.add(LSTM(32, input_dim=64, input_length=10) ) 


# for subsequent layers, no need to specify the input size: 
model.add(LSTM(16)) 


4 to stack recurrent layers, you must use return sequences-True 
4 on any recurrent layer that feeds into another recurrent layer. 


4 note that you only need to specify the input size on the first 
layer. 

model = Sequential() 

model.add(LSTM(64, input dim-z64, input length-310, return sequenc 

es-True)) 

model.add(LSTM(32, return sequences-True)) 

model.add(LSTM(190)) 


4 2D >L 
间 定 RNN 初 始 状态 的 注意 事项 


可 以 通过 设置 initial state 用 符号 式 的 方式 指定 RNN 层 的 初始 状态 。 
BP > initial stat 的 值 应 该 为 一 个 tensor 或 一 个 tensor 列 表 ， 代 表 RNN 层 的 初始 
状态 。 


也 可 以 通过 设置 reset states 参数 用 数值 的 方法 设置 RNN 的 初始 状态 ， 状 态 的 
值 应 该 为 numpy 数 组 或 numpy 数 组 的 列表 ， 代 表 RNN 层 的 初始 状态 。 
屏蔽 输入 数据 (Masking) 


循环 层 支持 通过 时 间 步 变量 对 输入 数据 进行 Masking， 如 果 想 将 输入 数据 的 一 部 分 
屏蔽 看 ， 请 使 用 Embedding 层 并 将 参数 mask zero 设 为 True 。 


使 用 状态 RNN 的 注意 事项 


可 以 将 RNN 设 置 为 ‘stateful， 意 味 着 由 每 个 batch 计 算出 的 状态 都 会 被 重用 于 初始 化 
下 一 个 batch 的 初始 状态 。 状 态 RNN 假 设 连续 的 两 个 batch 之 中 ， 相 同 下 标的 元 素 有 
一 一 映射 关系 。 


要 启用 状态 RNN， 请 在 实例 化 层 对 象 时 指定 参数 stateful=True ， 并 在 
Sequential 模 型 使 用 固定 大 小 的 batch : 通过 在 模型 的 第 一 层 传 入 batch_size= 
(...) fe input shape 来 实现 。 在 函数 式 模 型 中 ， 对 所 有 的 输入 都 要 指定 相同 
的 batch_size 。 


如 果 要 将 循环 层 的 状态 重 置 ， 请 调用 .reset_states() ， 对 模型 调用 将 重 置 模型 
中 所 有 状态 RNN 的 状态 。 对 单个 层 调 用 则 只 重 置 该 层 的 状态 。 


SimpleRNN Æ 


keras.layers.recurrent.SimpleRNN(units, activation='tanh', use_b 

ias-True, kernel initializer-'glorot uniform', recurrent initial 

izer-'orthogonal', bias initializer-'zeros', kernel regularizer- 

None, recurrent regularizer-None, bias regularizer-None, activit 

y regularizer-zNone, kernel constraint-None, recurrent constraint- 
None, bias constraint-zNone, dropout=0.0, recurrent dropout-0.0) 


BINE E) 
连接 RNN 网 络 ，RNN 的 输出 会 被 回馈 到 输入 
参数 
e units : 输出 维度 
e activation : Rie HA > 为 预定 义 的 激活 有 函数 名 (AR 考 激活 函数 ) 


e Use bias: 布尔 值 ， 是 否 使 用 偏 置 项 


e kernel initializer : 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 jnitializers 


e recurrent initializer : 循环 核 的 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 
串 ， 或 用 于 初始 化 权重 的 初始 化 器 。 参 考 jnitializers 


e bias initializer: 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 jnitializers 


e kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 

e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 

e recurrent regularizer : 施加 在 循环 核 上 的 正则 项 ， 为 Regularizer 对 象 
e activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 

e kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 

e recurrent constraints : 施加 在 循环 核 上 的 约束 项 ， 为 Constraints 对 象 
e bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 

e dropout : 0~1 之 间 的 浮 点 数 ， 控 制 输入 线性 变换 的 神经 元 断 开 比例 


e recurrent dropout : 0~1 之 间 的 浮 点 数 ， 控 制 循 环 状态 的 线性 变换 的 神经 元 断 
开 比 例 


参考 文献 


e ATheoretically Grounded Application of Dropout in Recurrent Neural 
Networks 


GRUZ 


keras.layers.recurrent.GRU(units, activation='tanh', recurrent_a 
ctivation='hard_sigmoid', use_bias=True, kernel_initializer='glo 
rot_uniform', recurrent_initializer='orthogonal', bias_initializ 
er='zeros', kernel_regularizer=None, recurrent_regularizer=None, 
bias_regularizer=None, activity_regularizer=None, kernel_constr 
aint=None, recurrent_constraint=None, bias_constraint=None, drop 
out=0.0, recurrent_dropout=0.0) 


门限 循环 单元 ( 详 见 参考 文献 ) 
参数 


e units : 输出 维度 
e activation : 激活 函数 ， 为 预定 义 的 激活 函数 名 (参考 激活 函数 ) 
e use bias: 布尔 值 ， 是否 使 用 偏 置 项 


e kernel initializer : 权 值 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 囊 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 initializers 


e recurrent_initializer : 循环 核 的 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 
串 ， 或 用 于 初始 化 权重 的 初始 化 器 。 参 考 jnitializers 


e bias initializer: 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 initializers 


e kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 

e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 

e recurrent regularizer : 施加 在 循环 核 上 的 正则 项 ， 为 Regularizer 对 象 
e activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 

e kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 

e recurrent constraints : 施加 在 循环 核 上 的 约束 项 ， 为 Constraints 对 象 
e bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 

e dropout : 0~1 之 间 的 浮 点 数 ， 控 制 输入 线性 变换 的 神经 元 断 开 比例 


e recurrent dropout : 0~1 之 间 的 浮 点 数 ， 控 制 循 环 状态 的 线性 变换 的 神经 元 断 
开 比 例 


参考 文献 


e On the Properties of Neural Machine Translation: Encoder-Decoder 
Approaches 


e Empirical Evaluation of Gated Recurrent Neural Networks on Sequence 
Modeling 


e A Theoretically Grounded Application of Dropout in Recurrent Neural 
Networks 


LSTME 


keras.layers.recurrent.LSTM(units, activation='tanh', recurrent 
activation-'hard sigmoid', use bias-True, kernel initializer-'gl 
orot uniform', recurrent initializer-'orthogonal', bias initiali 
zer='zeros', unit forget bias-True, kernel regularizer-None, rec 
urrent_regularizer=None, bias regularizerzNone, activity regular 
izer-None, kernel constraint-zNone, recurrent constraint-None, bi 
as constraint-zNone, dropout=0.0, recurrent dropoutz0.0) 


Keras 长 短期 记忆 模型 ， 关 于 此 算法 的 详情 ， 请 参考 本 教程 


参数 


e units : 输出 维度 

e activation: 激活 函数 ， 为 预定 义 的 激活 函数 名 《参考 激活 函数 ) 
e recurrent activation: 为 循环 步 施加 的 激活 函数 (参考 激活 函数 ) 
e Use bias: 布尔 值 ， 是 否 使 用 偏 置 项 


e kernel initializer : 权 值 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 串 ， 或 用 于 
初始 化 权重 的 初始 化 器 。 参 考 initializers 


e recurrent initializer : 循环 核 的 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字符 
串 ， 或 用 于 初始 化 权重 的 初始 化 器 。 参 考 jnitializers 


e bias initializer: 权 值 初始 化 方法 ， 为 预定 义 初 始 化 方法 名 的 字符 串 ， 或 用 于 初 
始 化 权重 的 初始 化 器 。 参 考 jnitializers 


e kernel regularizer : 施加 在 权重 上 的 正则 项 ， 为 Regularizer 对 象 


e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 ， 为 Regularizer 对 象 

e recurrent regularizer : 施加 在 循环 核 上 的 正则 项 ， 为 Regularizer 对 象 
e activity regularizer : 施加 在 输出 上 的 正则 项 ， 为 Regularizer 对 象 

e kernel constraints : 施加 在 权重 上 的 约束 项 ， 为 Constraints 对 象 

e recurrent constraints : 施加 在 循环 核 上 的 约束 项 ， 为 Constraints 对 象 
e bias constraints : 施加 在 偏 置 上 的 约束 项 ， 为 Constraints 对 象 

e dropout : 0~1 之 间 的 浮 点 数 ， 控 制 输入 线性 变换 的 神经 元 断 开 比例 


e recurrent dropout : 0~1 之 间 的 浮 点 数 ， 控 制 循 环 状态 的 线性 变换 的 神经 元 断 
FF ree] 


参考 文献 
e Long short-term memory (original 1997 paper ) 
e Learning to forget: Continual prediction with LSTM 
e Supervised sequence labelling with recurrent neural networks 


e A Theoretically Grounded Application of Dropout in Recurrent Neural 
Networks 


x A Embedding 


Embedding% 


keras.layers.embeddings.Embedding(input_dim, output_dim, embeddi 
ngs_initializer='uniform', embeddings_regularizer=None, activity 
_regularizer=None, embeddings_constraint=None, mask_zero=False, 
input_length=None) 


BOM ERR (Fin) 转换 为 具有 国定 大 小 的 向 量 ， 如 [[4],[20]]->[[0.25,0.1]， 
[0.6,-0.2]] 


Embedding 层 只 能 作为 模型 的 第 一 层 
参数 


e input dim : 大 或 等 于 0 的 整数 ， 字 典 长 度 ， 即 输入 数据 最 大 下 标 +1 
e output dim : 大 于 0 的 整数 ， 代 表 全 连接 襄 入 的 维度 


e embeddings initializer: 谋 入 算 阵 的 初始 化 方法 ， 为 预定 义 初始 化 方法 名 的 字 
符 串 ， 或 用 于 初始 化 权重 的 初始 化 器 。 参 考 initializers 


e embeddings regularizer: # A 42 RE & EW > X Regularizerd $ 
e embeddings constraint: # A 42M 89 29 RI > AConstraints# K 


e mask zero: 7p/ 4. > AR EEHMAPHOUAHERGRAG HE 
pua alode tyre :处 理 变 长 输入 时 有 用 。 设 置 
为 True 的 话 ， 模 型 中 后 层 必 须 都 支持 masking， 否 则 会 抛 出 异常 。 如 果 
该 值 为 True， 则 ee : 不 可 用 ，input dim 应 ia +2。 


e input length : 当 输 入 序列 的 长 度 固定 时 ， 该 值 为 其 长 度 。 如 果 要 在 该 层 后 
接 Flatten 层 ， 然 后 接 Dense 层 ， 则 必须 指定 该 和 参数， 否则 Dense 层 的 输 
出 维度 无 法 自动 推断 。 


iat A Shape 


形 如 (samples > sequence length) 的 2D 张 量 


输出 shape 


形 如 (samples, sequence length, output dim) 的 3D 张 量 


例子 


model = Sequential() 

model.add(Embedding(i000, 64, input_length=10) ) 

# the model will take as input an integer matrix of size (batch, 
input_length). 

# the largest integer (i.e. word index) in the input should be n 

o larger than 999 (vocabulary size). 

# now model.output_shape == (None, 10, 64), where None is the ba 
tch dimension. 


input array = np.random.randint(1000, size=(32, 10)) 
model.compile('rmsprop', 'mse') 


output array - model.predict(input array) 
assert output array.shape == (32, 10, 64) 


e A Theoretically Grounded Application of Dropout in Recurrent Neural 
Networks 


Merge = 


Merge 层 提供 了 一 系列 用 于 融合 两 个 层 或 两 个 张 量 的 层 对 象 和 方法 。 以 大 写 首 字母 
开头 的 是 Layer 关 ， 以 小 写字 母 开 头 的 是 张 量 的 函数 。 小 写字 母 开头 的 张 量 函 数 在 
内 部 实际 上 是 调用 了 大 写字 母 开头 的 层 。 


Add 


keras.layers.merge.Add() 


Jý Layer that adds a list of inputs. 


该 层 接收 一 个 列表 的 同 shape 张 量 ， 并 返回 它们 的 和 ，shape 不 变 。 


Multiply 
"python keras.layers.merge.Multiply() 
JA E dE Aia ES FB shapeks > JE3& ev 11159 3€ G6 R89 9K € > shape e 


## Average 
`` python 
keras.layers.merge.Average() 


该 层 接收 一 个 列表 的 同 shape 张 量 ， 并 返回 它们 的 逐 元 素 均值 ，shape 不 变 。 


Maximum 


keras.layers.merge.Maximum( ) 


该 层 接收 一 个 列表 的 同 shape 张 量 ， 并 返回 它们 的 逐 元 素 最 大 值 ，shape 不 变 。 


Concatenate 


keras.layers.merge.Concatenate(axis=-1) 
该 层 接收 一 个 列表 的 同 shape 张 量 ， 并 返回 它们 的 按照 给 定 轴 相 接 构成 的 向 量 。 


参数 


e axis: 想 接 的 轴 
e "*kwargs: 首 通 的 Layer 关 键 字 参数 


Dot 


keras.layers.merge.Dot(axes, normalize=False) 


计算 两 个 tensor 中 样本 的 张 量 乘积 。 例 如 ， 如 果 两 个 张 量 a 和 b 的 shape 都 为 
(batch size, n) ， 则 输出 为 形 如 (batch size,1) 的 张 量 ， 结 果 张 量 每 个 batch 的 
参数 
e axes: 整数 或 整数 的 tuple， 执 行 乘法 的 轴 。 
e normalize: 布尔 值 ， 是 否 沿 执行 成 绩 的 轴 做 L2 规 范 化 ， 如 果 设 为 True， 那 么 乘 


积 的 输出 是 两 个 样本 的 余弦 相似 性 。 
e "*kwargs: 首 通 的 Layer 关 键 字 参数 


add 
add(inputs) 


Add 层 的 函数 式 包装 


参数 : 


e inputs: 长 度 至 少 为 2 的 张 量 列表 A 
e "*kwargs: 普通 的 Layer 关 键 字 参 数 


返回 值 


输入 列表 张 量 之 和 


multiply 


“python multiply(inputs) 


Multiply Hx ax 
IHRER HE : 


* inputs: 长 度 至 少 为 2 的 张 量 列 表 

* **kwargs: 普通 的 Layer 关 键 字 参数 
### 返 回 值 

输入 列表 张 量 之 逐 元 素 积 

## average 


~** python 
average(inputs) 


Average 的 函数 包装 
参数 : 


e inputs: 长 度 至 少 为 2 的 张 量 列表 
e "*kwargs: 普通 的 Layer 关 键 字 参 数 


返回 值 


输入 列表 张 量 之 逐 元 素 均值 
maximum 

maximum( inputs) 
Maximum 的 有 函数 包装 


参数 : 


e inputs: 长 度 至 少 为 2 的 张 量 列表 
e **kwargs: 普通 的 Layer 关 键 字 参 数 


返回 值 


输入 列表 张 量 之 逐 元 素 均 值 


concatenate 
concatenate(inputs, axis=-1)) 
Concatenate 的 函数 包装 
参数 
e inputs: 长 度 至 少 为 2 的 张 量 列 


e axis: 相 接 的 轴 
e **kwargs: 普通 的 Layer 关 键 字 参 数 


dot 


dot(inputs, axes, normalize=False) 


Dot 的 函数 包装 
参数 


e inputs: 长 度 至 少 为 2 的 张 量 列 

e axes: 整数 或 整数 的 tuple， 执 行 乘法 的 轴 。 

e normalize: 布尔 值 ， 是 否 洛 执行 成 绩 的 轴 做 L2 规 范 化 ， 如 果 设 为 TrTue， 那 么 乘 
只 的 输出 是 两 个 样本 的 余弦 相似 性 。 

e "*kwargs: 首 通 的 Layer 关 键 字 参数 


高 级 激活 层 Advanced Activation 
LeakyReLU Æ 


keras.layers.advanced_activations.LeakyReLU(alpha=0.3) 


LeakyRelU X 17 3E. 24 ¥ 7 (Rectified Linear Unit > ReLU) 的 特殊 版 本 ， 当 不 激 
A > LeakyReLU45 ASA FER a ^ o RAR A DBE > SESSReLU'T fi& 
现 的 神经 元 “死亡 "现象 。 即 ， f(x)=alpha * x for x « 0 , f(x) = x for 
x>=0 


e alpha : 大 于 0 的 浮 点 数 ， 代 表 激 活 函 数 图 像 中 第 三 象限 线段 的 斜率 


输入 Shape 


任意 ， 当 使 用 该 层 为 模型 首 层 时 需 指 定 input shape 参数 


输出 shape 


与 输入 相同 


Rectifier Nonlinearities Improve Neural Network Acoustic Models 


PReLU EZ 


keras.layers.advanced_activations.PReLU(alpha_initializer='zeros' 
, alpha_regularizer=None, alpha_constraint=None, shared_axes=None 


) 
到 :| 





该 层 为 参数 化 的 ReLU (Parametric ReLU) ， 表 达 式 是 : F(x) = alpha * x 
for x <0, f(x) = x for x>=0 ， 此 处 的 alpha 为 一 个 与 xshape 相 同 的 可 学 
习 的 参数 向 量 。 


参数 


alpha initializer : alpha 的 初始 化 函数 

alpha_regularizer : alpha 的 正则 项 

e alpha constraint : alpha 的 约束 项 

e shared axes: 该 参数 指定 的 轴 将 共享 同一 组 科学 系 参数 ， 例 如 假如 输入 特征 
图 是 从 2D 卷 积 过 来 的 ， 具 有 形 如 (batch, height, width, channels) 这 
样 的 shape， 则 或 许 你 会 希望 在 空域 共享 参数 ， 这 样 每 个 filter 就 只 有 一 组 参 
数 ， 设 定 shared_axes=[1,2] 可 完成 该 目标 


输入 Shape 


任意 ， 当 使 用 该 层 为 模型 首 层 时 需 指 定 input shape 参数 


输出 shape 


与 输入 相同 


e Delving Deep into Rectifiers: Surpassing Human-Level Performance on 
ImageNet Classification 


ELUA 


keras.layers.advanced_activations.ELU(alpha=1.0) 


ELU 层 是 指数 线性 单元 (Exponential Linera Unit) » RAAA: 该 层 为 参数 化 的 
ReLU (Parametric ReLU) ， 表 达 式 是 : f(x) = alpha * (exp(x) - 1.) for 


x <0, f(x) = x for x>=0 


数 
e alpha : 控制 负 因 子 的 参数 
输入 Shape 


任意 ， 当 使 用 该 层 为 模型 首 层 时 需 指 定 input_shape 参数 


输出 shape 


与 输入 相同 


e >Fast and Accurate Deep Network Learning by Exponential Linear Units 
(ELUs) 


ThresholdedReLU Æ 


keras.layers.advanced_activations.ThresholdedReLU(theta=1.0) 


该 层 是 带 有 门限 的 ReLU， 表 达 式 是 : f(x) = x for x > theta , f(x) = 0 
otherwise 


参数 


e theata : 大 或 等 于 0 的 浮 点 数 ， 激 活 门限 位 置 


iat A Shape 


任意 ， 当 使 用 该 层 为 模型 首 层 时 需 指 定 input shape 参数 


输出 shape 


与 输入 相同 


e Zero-Bias Autoencoders and the Benefits of Co-Adapting Features 


(4t) 规范 化 BatchNormalization 


BatchNormalization = 


keras.layers.normalization.BatchNormalization(axis=-1, momentum= 
0.99, epsilon=0.001, center-True, scale-True, beta initializer-' 
zeros', gamma initializer-'ones', moving mean initializer-'zeros' 
, moving variance initializer-'ones', beta regularizer-zNone, gam 
ma regularizer-None, beta constraint-None, gamma constraint-None 


) 
B EE SSS ne I] 


该 层 在 每 个 batch 上 将 前 一 层 的 激活 值 重新 规范 化 ， 即 使 得 其 输出 数据 的 均值 接近 
0， 其 标准 差 接近 1 


ud 


参数 


e axis: 整数 ， 指 定 要 规范 化 的 轴 ， 通 常 为 特征 轴 。 例 如 在 进 
行 data format-"channels first 的 2D 卷 积 后 ， 一 般 会 设 axis=1。 

e momentum: 动态 均值 的 动量 

e epsilon: 大 于 0 的 小 浮 点 数 ， 用 于 防止 除 0 错 误 

e center: 若 设 为 True， 将 会 将 beta 作 为 偏 置 加 上 去 ， 否 则 忽略 参数 beta 

e scale: 若 设 为 True， 则 会 乘 以 gamma， 和 否则 不 使 用 gamma。 当 下 一 层 是 线性 
的 时 ， 可 以 设 False， 因 为 scaling 的 操作 将 被 下 一 层 执行 。 

e beta initializer : beta 权 重 的 初始 方法 

e gamma initializer: gamma 的 初始 化 方法 

e moving_mean_initializer: 动态 均值 的 初始 化 方法 

e moving variance initializer: 动态 方差 的 初始 化 方法 

e beta_regularizer: 可 选 的 beta 正 则 

e gamma regularizer: 可 选 的 gamma 正 则 

e beta constraint: 可 选 的 beta 约 束 

e gamma constraint: 可 选 的 gamma 约 束 


输入 shape 


任意 ， 当 使 用 本 层 为 模型 首 层 时 ， 指 定 input shape 参数 时 有 意义 。 


输出 shape 


与 输入 Shape 相 同 


参考 文献 
e Batch Normalization: Accelerating Deep Network Training by Reducing 
Internal Covariate Shift 
【Tips】BN 层 的 作用 


(1) 加 速 收敛 (2) 控制 过 拟 合 ， 可 以 少 用 或 不 用 Dropout 和 正则 (3) 降低 网 
对 初始 化 权重 不 敏感 (4) 允许 使 用 较 大 的 学 习 率 


we = 2 Noise 
GaussianNoise = 


keras.layers.noise.GaussianNoise(stddev) 


为 数据 施加 0 均值 ， 标 准 差 为 stddev 的 加 性 高 斯 噪声 。 该 层 在 克服 过 拟 合 时 比较 
有 用 ， 你 可 以 将 它 看 作 是 随机 的 数据 提升 。 高 斯 喧 声 是 需 入 数据 进行 破坏 时 
的 自然 选择 。 


因为 这 是 一 个 起 正则 化 作用 的 层 ， 该 层 只 在 训练 时 才 有 效 。 
参数 
e stddev : 浮 点 数 ， 代 表 要 产生 的 高 斯 噪声 标准 差 


输入 shape 


任意 ， 当 使 用 该 层 为 模型 首 层 时 需 指 定 input shape 参数 


输出 shape 


与 输入 相同 


GaussianDropout/Z 


keras.layers.noise.GaussianDropout(rate) 


为 层 的 输入 施加 以 1 为 均值 ， 标 准 差 为 sqrt(rate/(1-rate) NRE AMRF 


因为 这 是 一 个 起 正则 化 作用 的 层 ， 该 层 只 在 训练 时 才 有 效 。 


参数 
e rate : 浮 点 数 ， 断 连 概率 ， 与 Dropout 层 相同 
输入 Shape 


任意 ， 当 使 用 该 层 为 模型 首 层 时 需 指 定 input shape 参数 


输出 shape 


与 输入 相同 


e Dropout: A Simple Way to Prevent Neural Networks from Overfitting 


d 


6^ & zs Wrapper 


TimeDistributed 包装 器 


keras.layers.wrappers.TimeDistributed(layer) 
该 包装 器 可 以 把 一 个 层 应 用 到 输入 的 每 一 个 时 间 步 
参数 


e layer : Keras 层 对 象 
输入 至 少 为 3D 张 量 ， 下 标 为 1 的 维度 将 被 认为 是 时 间 维 


例如 ， 考 虑 一 个 含有 32 个 样本 的 batch， 每 个 样本 都 是 10 个 向 量 组 成 的 序列 ， 每 个 
向 量 长 为 16， 则 其 输入 维度 为 (32,10,16) ， 其 不 包含 batch 大 小 
的 input shape 为 (10,16) 


我 们 可 以 使 用 包装 器 TimeDistributed 包装 Dense ， 以 产生 针对 各 个 时 间 步 信 
号 的 独立 全 连接 : 


# as the first layer in a model 
model - Sequential() 
model. eR EE 2 input shape-z(10, 16))) 








4 now model.output shape -- (None, 10, 8) 
subsequent layers: no need for input shape 

m qu MED ie 

# now model.output shape == (None, 10, 32) 


程序 的 输出 数据 shape 为 (32,10,8) 


使 用 TimeDistributed 包装 Dense 严格 等 价 


于 TTE TimeDistribuedDense 。 不 同 的 是 包装 器 TimeDistribued 还 可 以 
对 别 的 层 > 如 这 里 对 Convolution2D 包装 : 


model = Sequential() 
model.add(TimeDistributed(Convolution2D(64, 3, 3), input_shape=( 
10, 3, 299, 299))) 


eu 


Bidirectional & € 5 


keras.layers.wrappers.Bidirectional(layer, merge mode-'concat', 
weights=None) 


双向 RNN 包 装 器 
参数 


e layer: Recurrent 对 象 

e merge mode : 前 向 和 后 向 RNN 输 出 的 结合 方式 ， 
为 sum , mul , concat , ave 和 None 之 一 ， 着 设 为 None， 则 返回 值 不 结 
合 ， 而 是 以 列表 的 形式 返回 


例子 


model = Sequential() 

model.add(Bidirectional(LSTM(i90, return sequences-True), input s 
hape=(5, 10))) 

model .add(Bidirectional(LSTM(10) )) 

model.add(Dense(5)) 

model.add(Activation('softmax')) 

model.compile(loss-'categorical crossentropy', optimizer-'rmspro 


p') 


编写 目 己 的 层 


对 于 简单 的 定制 操作 ， 我 们 或 许可 以 通过 使 用 layers.core.Lambda 层 来 完成 。 
但 对 于 任何 具有 可 训练 权重 的 定制 层 ， 你 应 该 自己 来 实现 。 


这 里 是 一 个 Keras2 的 层 应 该 具有 的 框架 结构 (如 果 你 的 版 本 更 昌 请 升级 )， 要 定制 自 
己 的 层 ， 你 需要 实现 下 面 三 个 方法 


e build(input_shape) : 这 是 定义 权重 的 方法 ， 可 训练 的 权 应 该 在 这 里 被 加 
入 列表 ^self.trainable weights 中 。 其 他 的 属性 还 包 
括 self.non_trainabe_weights (列表 ) 和 self.updates (需要 更 新 的 
形 如 (tensor, new_tensor) 的 tuple 的 列表 ) 。 你 可 以 参 
考 BatchNormalization 层 的 实现 来 学 习 如 何 使 用 上 面 两 个 属性 。 这 个 方法 
必须 设置 self.built = True ， 可 通过 调 
用 super([layer],self).build() 实现 


e call(x) : 这 是 定义 层 功能 的 方法 ， 除 非 你 希望 你 写 的 层 支 持 masking， 否 
则 你 只 ride call 的 第 一 个 参数 : MAKE 


e compute output shape(input shape) : 如 果 你 的 层 修改 了 输入 数据 的 
shape， 你 应 该 在 这 里 指定 shape 变 化 的 方法 ， 这 个 函数 使 得 Keras 可 以 做 自动 
shape 推 断 


from keras import backend as K 
from keras.engine.topology import Layer 
import numpy as np 


class MyLayer(Layer): 


def — init (self, output dim, **kwargs): 
self.output dim - output dim 
super(MyLayer, self). init (**kwargs) 


def build(self, input shape): 
# Create a trainable weight variable for this layer. 
self.kernel = self.add weight(shape-(input shape[i], sel 
f.output dim), 
initializer-'uniform', 
trainable-True) 
super(MyLayer, self).build(input shape) # Be sure to ca 
1l this somewhere! 


def call(self, x): 
return K.dot(x, self.kernel) 


def compute output shape(self, input shape): 
return (input shape[0], self.output dim) 


现存 的 Keras 层 代码 可 以 为 你 的 实现 提供 良好 参考 ， 阅 读 源 代 码 吧 | 


数据 预 处 理 


序列 预 处 理 


填充 序列 pad_sequences 


keras.preprocessing.sequence.pad sequences(sequences, maxlen=None 
, dtype='int32', 
padding-'pre', truncating-'pre', value=0. ) 


ES 


将 长 为 nb_samples 的 序列 (标量 序列 ) 转化 为 形 

如 (nb_samples,nb_timesteps) 2D numpy array。 如 果 提 供 了 参 

数 maxlen * nb timesteps-maxlen ， 和 否则 其 值 为 最 长 序列 的 长 度 。 其 他 短 于 
该 长 度 的 序列 都 会 在 后 部 填充 0 以 达到 该 长 度 。 长 于 nb timesteps 的 序列 将 会 被 
截断 ， 以 使 其 匹配 目标 长 度 。padding 和 截断 发 生 的 位 置 分 别 取 决 

于 padding 和 truncating . 


参数 


e sequences : i$, Zt S SE ZU] XL PUE EE PILAE 


e maxlen : None 或 整数 ， 为 序列 的 最 大 长 度 。 大 于 此 长 度 的 序列 将 被 截 短 ， 小 
于 此 长 度 的 序列 将 在 后 部 填 0. 


e dtype : 返回 的 numpy array 的 数据 类 型 
e padding : ‘pre' 或 ‘post'， 确 定 当 需要 补 0 时 ， 在 序列 的 起 始 还 是 结尾 补 
e truncating : “pre' 或 post， 确定 当 需 要 截断 序列 时 ， 从 起 始 还 是 结尾 截断 


e value : 浮 点 数 ， 此 值 将 在 填充 时 代替 默认 的 填充 值 0 


返回 值 


返回 形 如 (nb_samples,nb_timesteps) 的 2D 张 量 


跳 字 skipgrams 


keras.preprocessing.sequence.skipgrams(sequence, vocabulary size 


, 
window size-4, negative samples=1., shuffle=True, 
categorical-False, sampling table-zNone) 


skipgrams 将 一 个 词 向 量 下 标的 序列 转化 为 下 面 的 一 对 tuple : 
e 对 于 正 样 本 ， 和 转化 为 (word ，word in the same window) 
e 对 于 负 样 本 ， 和 转化 为 (word > random word from the vocabulary ) 


【Tips】 根 据 维 基 百 科 ，n-gram 代 表 在 给 定 序列 中 产生 连续 的 n 项 ， 当 序列 句子 
时 ， 每 项 就 是 单词 ， 此 时 n-gram 也 称 为 shingles。 而 skip-gram 的 推广 ，skip-gram 
产生 的 n 项 子 序列 中 ， 各 个 项 在 原 序 列 中 不 连续 ， 而 是 跳 了 k 个 字 。 例 如 ， 对 于 句 
Fi 


“the rain in Spain falls mainly on the plain” 
其 2-grams 为 子 序 列 集合 : 


the rain > rain in > in Spain > Spain falls > falls mainly > mainly on > on the > the 
plain 


其 1-skip-2-grams 为 子 序列 集合 : 
the in, rain Spain, in falls, Spain mainly, falls on, mainly the, on plain. 


更 多 详情 请 参考 Efficient Estimation of Word Representations in Vector Space 
参数 


e sequence : 下 标的 列表 ， 如 果 使 用 Sampling_tabel， 则 某 个 词 的 下 标 应 该 为 它 
在 数据 库 中 的 顺序 。 (从 1 开始 ) 
e vocabulary size : 整数 ， 字 典 大 小 


e window size : 整数 ， 正 样本 对 之 间 的 最 大 距离 


e negative samples : 大 于 0 的 浮 点 数 ， 等 于 0 代表 没有 负 样 本 ， 等 于 1 代表 负 样 
本 与 正 样本 数目 相同 ， 以 此 类 推 ( 即 负 样 本 的 数目 是 正 样 本 


的 negative samples 倍 ) 
e shuffle : 布尔 值 ， 确定 是 否 随 机 打 乱 样本 
e categorical: 布尔 值 ， 确定 是 否 要 使 得 返回 的 标签 具有 确定 类 别 


e sampling table : 形 如 (vocabulary size,) 的 numpy array > # 
中 sampling table[i] 代表 没有 负 样 本 或 随机 负 样 本 。 等 于 1 为 与 正 样 本 的 
数目 相同 采样 到 该 下 标 为 的 单词 的 概率 (假定 该 单词 是 数据 库 中 第 常见 的 单 
词 ) 


输出 


函数 的 输出 是 一 个 (couples, labels) 的 元 组 ， 其 中 : 
e couples 是 一 个 长 为 2 的 整数 列表 : [word_index, other_word_index] 


e labels 是 一 个 仅 由 0 和 1 构成 的 列表 ，1 代 
表 other word index 在 word index 的 窗口 ，0 代 
A other word index 是 词典 里 的 随机 单词 。 


e 如 果 设 置 categorical A True ， 则 标签 将 以 one-hot 的 方式 给 出 ， 即 1 变 为 
[0,1] ，0 变 为 [1,0] 
获取 采样 表 make sampling table 


keras.preprocessing.sequence.make_sampling_table(size, sampling_ 
factorzie-5) 


该 函数 用 以 产生 skipgrams 中 所 需要 的 参数 sampling table 。 这 是 一 个 长 


(为 平衡 期 起 见 ， 对 于 越 经 常 出 现 的 词 ， 要 以 越 低 的 概率 采 到 它 ) 


ud 


参数 


e Size : 词典 的 大 小 


e sampling factor : 此 值 越 低 ， 则 代表 采样 时 更 缓慢 的 概率 衰减 〈 即 常用 的 词 会 
被 以 更 低 的 概率 被 采 到 ) ， 如 果 设 置 为 1， 则 代表 不 进行 下 采样 ， 即 所 有 样本 
被 采样 到 的 概率 都 是 1。 


LA FH AL 3E 


4] + 4] text_to_word_sequence 


keras.preprocessing.text.text to word sequence(text, 
filters-base filter(), lower=True, split=" ") 


本 函数 将 一 个 句子 拆 分 成 单词 构成 的 列表 


ud 


参数 
e text: 字符 串 ， 待 处 理 的 文本 


e fiters : 需要 滤 除 的 字符 的 列表 或 连接 形成 的 字符 串 ， 例 如 标点 符号 。 默 认 值 
为 base filter() ， 包 含 标 点 符号 ， 制 表 符 和 换行 符 等 


e split: 字符 囊 ， 单 词 的 分 隔 符 ， 如 空格 
iR wl fü 


字符 串 列表 


one-hot 编 码 


keras.preprocessing.text.one_hot(text, n, 
filters-base filter(), lower=True, split-" ") 


本 函数 将 一 段 文本 编码 为 one-hot 形 式 的 码 ， 即 仅 记 录 词 在 词典 中 的 下 标 。 


[Tips] 从 定义 上 ， 当 字典 长 为 n 时 ， 每 个 单词 应 形成 一 个 长 为 n 的 向 量 ， 其 中 仅 有 
单词 本 身 在 字典 中 下 标的 位 置 为 1， 其 余 均 为 0， 这 称 为 one-hot。 


为 了 方便 起 见 ， 函 数 在 这 里 仅 把 “人 的 位 置 ， 即 字典 中 词 的 下 标记 录 下 来 。 
参数 


en: 整 数 ， 字 典 长 度 


返回 值 


整数 列表 ， 每 个 整数 是 [1,n] 之 间 的 值 ， 代 表 一 个 单词 〈 不 保证 唯一 性 ， 即 如 果 词典 
长 度 不 够 ， 不 同 的 单词 可 能 会 被 编 为 同一 个 码 ) © 


21 i] Z5 Tokenizer 


keras.preprocessing.text.Tokenizer(num wordszNone, filters-base 
Tilter() 
lower-True, split-" ") 


Tokenizer 是 一 个 用 于 向 量化 文本 ， 或 将 文本 转换 为 序列 ( 即 单词 在 字典 中 的 下 标 构 
成 的 列表 ， 从 1 算 起 ) 的 类 。 


构造 参数 
e 与 text_to_word_sequence 同名 参数 含义 相同 
e nb words : None 或 整数 ， 处 理 的 最 大 单词 数量 。 若 被 设置 为 整数 ， 则 分 词 器 
将 被 限制 为 处 理 数 据 集中 最 常见 的 nb words 个 单词 
类 方法 
e fit_on_texts(texts) 


o texts : 要 用 以 训练 的 文本 列表 
e texts to_sequences(texts) 


o texts : 待 转 为 序列 的 文本 列表 


o 返回 值 : 序列 的 列表 ， 列 表 中 每 个 序列 对 应 于 一 段 输入 文本 
e texts to sequences generator(texts) 

o AWA texts to sequences 的 生成 器 函数 版 

o texts : 待 转 为 序列 的 文本 列表 

o 返回 值 : 每 次 调用 返回 对 应 于 一 段 输 入 文本 的 序列 
e texts_to_matrix(texts, mode) : 

o texts : 待 向 量化 的 文本 列表 

o mode ‘binary’ > 'count > 'tfidf > "freq — > RUA ‘binary’ 

反 回 值 : 形 如 (len(texts), nb words) 的 numpy array 

e fit_on_sequences(sequences): 


o sequences : 要 用 以 训练 的 序列 列表 
e sequences to matrix(sequences): 


o sequences : 待 向 量化 的 序列 列表 
o mode ‘binary’ > ‘count’ > ‘tfidf’ > "freq — > RUX ‘binary’ 


o 返回 值 : 形 如 (len(sequences), nb words) 的 numpy array 


属性 


e Word_counts: 字 典 ， 将 单词 《字符 串 ) 映射 为 它们 在 训练 期 间 出 现 的 次 数 。 仅 
EAA fit on _ texts 之 后 设置 。 

e word docs: 字典 ， 将 单词 (字符 串 ) 映射 为 它们 在 训练 期 间 所 出 现 的 文档 或 文 
本 的 数量 。 仅 在 调用 优 on_texts 之 后 设置 。 

e word index: 字典 ， 将 单词 (字符 串 ) 映射 为 它们 的 排名 或 者 索引 。 仅 在 调用 
fit_on_texts 之 后 设置 。 

e document_count: 整数 。 分 词 器 被 训练 的 文档 (文本 或 者 序列 ) 数量 。 仅 在 调 
用 ft_on_texts 或 fit_on_sequences 之 后 设置 。 


图 片 预 处 理 


图 片 生成 器 ImageDataGenerator 


keras.preprocessing.image.ImageDataGenerator(featurewise center- 
False, 
samplewise center-False, 
featurewise std normalization-False, 
samplewise std normalization-False, 
zca whitening-False, 
rotation range-o., 
width shift range-o., 
height shift range-o., 
shear range-o., 
zoom range-o., 
channel shift range-o., 
fill mode-'nearest', 
cval=0., 
horizontal_flip=False, 
vertical_flip=False, 
rescale=None, 
preprocessing _function=None, 
data format-K.image data format()) 


用 以 生成 一 个 batch 的 图 像 数 据 ， 支 持 实时 数据 提升 。 训 练 时 该 函数 会 无 限 生成 数 
据 ， 直 到 达到 规定 的 epoch 次 数 为 止 。 


参数 
e featurewise center : 布尔 值 ， 使 输入 数据 集 去 中 心 化 〈 均 值 为 0) , feature 
执行 
e samplewise center : 布尔 值 ， 使 输入 数据 的 每 个 样本 均值 为 0 


e featurewise std normalization : 布尔 值 ， 将 输入 除 以 数据 集 的 标准 差 以 完成 
标准 化 , 按 feature 执 行 


samplewise_std_normalization : 布尔 值 ， 将 输入 的 每 个 样本 除 以 其 自身 的 标 
准 差 


zca whitening : 布尔 值 ， 对 输入 数据 施加 ZCA 白 化 
rotation_range : 整数 ， 数 据 提 升 时 图 片 随机 转动 的 角度 


width shift range : 浮 点 数 ， 图 片 宽度 的 某 个 比例 ， 数 据 提升 时 图 片 水 平 偏 移 
的 幅度 


height shift range : 浮 点 数 ， 图 片 高 度 的 某 个 比例 ， 数 据 提升 时 图 片 坚 直 偏 移 
的 幅度 


shear range : 浮 点 数 ， 剪 切 强 度 (着 时 针 方向 的 剪 切 变换 角度 ) 


zoom range : 浮 点 数 或 形 如 [lower, upper] 的 列表 ， 随 机 缩放 的 幅度 ， 若 
为 浮 点 数 ， 则 相当 于 [lower,upper] = [1 - zoom range, 
1+zoom_range] 


channel shift range : 浮 点 数 ， 随 机 通道 偏 移 的 幅度 

fill mode : ; ‘constant，‘nearest’，‘reflect 或 Wrap' 之 一 ， 当 进行 变换 时 超出 
边界 的 点 将 根据 本 参数 给 定 的 方法 进行 处 理 

cval : 浮 点 数 或 整数 ， 当 fill mode-constant 时 ， 指 定 要 向 超出 边界 的 点 
填充 的 值 

horizontal flip : 布尔 值 ， 进 行 随机 水 平 翻 转 

vertical flip : 布尔 值 ， 进行 随 机 坚 直 翻转 

rescale: 重 放 缩 因子 ,默认 为 None. 如 果 为 None 或 0 则 不 进行 放 缩 ,否则 会 将 该 数 
值 乘 到 数据 上 (在 应 用 其 他 变换 之 前 ) 


preprocessing function: 将 被 应 用 于 每 个 输入 的 函数 。 该 函数 将 在 任何 其 他 修 
改 之 前 运行 。 该 函数 接受 一 个 参数 ， 为 一 张 图 片 〈 秩 为 3 的 numpy array) ， 并 
且 输 出 一 个 具有 相同 shape 的 numpy array 


data format : 字符 囊 ，“channel first" 或 “channel_last" 之 一 ， 代 表 图 像 的 通道 
维 的 位 置 。 该 参数 是 Keras 1.x 中 的 image_dim_ordering，“channel last" 对 应 
原本 的 “tf » "channel first* 对 应 原本 的 “th”。 以 128x128 的 RGB 图 像 为 


4] > “channel_first” 4% 44 2022 A (3,128,128) ， 而 “channel_last" 应 将 数据 
222A (128,128,3) 。 该 参数 的 默认 值 是 -/.keras/keras.json 中 设置 的 
值 ， 若 从 未 设置 过 ， 则 为 “channel_last” 


方法 


e fit(x, augment-False, rounds=1) : 计算 依赖 于 数据 的 变换 所 需要 的 统计 信息 
(均值 方差 等 ), 只 有 使 
用 featurewise_center ， featurewise_std_normalization 或 zca_wh 
itening 时 需要 此 函数 。 


o X: numpy array， 样 本 数据 ， 秩 应 为 4. 在 黑白 图 像 的 情况 下 channel 轴 的 
值 为 1， 在 彩色 图 像 情况 下 值 为 3 


o augment : 布尔 值 ， 确 定 是 否 使 用 随即 提升 过 的 数据 


o round : 若 设 augment=True ， 确 定 要 在 数据 上 进行 多 少 轮 数 据 提 升 ， 默 
认 值 为 1 


o seed: 整数 ,随机 数 种 子 


e flow(self, X, y, batch size-32, shuffle=True, seed=None, save_to_dir=None, 
save prefix-", save format-'jpeg') : 接收 numpy 数 组 和 标签 为 参数 ,生成 经 过 
数据 提升 或 标准 化 后 的 batch 数 据 , 并 在 一 个 无 限 循环 中 不 断 的 返回 batch 数 据 


o X : 样本 数据 ， 秩 应 为 4. 在 黑白 图 像 的 情况 下 channel 轴 的 值 为 1， 在 彩色 图 
像 情况 下 值 为 3 

o y :标签 

o batch size : 整数 ， 上 默认 32 

o shuffle : 布尔 值 ， 是 否 随机 打 乱 数据 ， 默 认为 True 


o save to dir : None 或 字符 串 ， 该 参数 能 让 你 将 提升 后 的 图 片 保 存 起 来 ， 
用 以 可 视 化 


o save prefix : 字符 串 ， 保 存 提升 后 图 片 时 使 用 的 前 组 , 仅 当 设置 
J save_to_dir 时 生效 


Oo 


Oo 


o 


save format : "png" 或 "jpeg" 之 一 ， 指 定 保存 图 片 的 数据 格式 ,默认 "jpeg" 


yields: 形 如 (x,y) 的 tuple,x 是 代表 图 像 数 据 的 numpy 数 组 .y 是 代表 标签 的 
numpy 数 组 .该 迭代 器 无 限 循 环 . 


seed: 整数 ,随机 数 种 子 


e flow from directory(directory): 以 文件 夹 路 径 为 参数 ,生成 经 过 数据 提升 / 归 一 化 
后 的 数据 ,在 一 个 无 限 循 环 中 无 限 产 生 batch 数 据 


o 


directory: 目标 文件 夹 路 径 ,对 于 每 一 个 类 ,该 文件 夹 都 要 包含 一 个 子 文件 夹 . 
子 文件 夹 中 任何 JPG、PNG 和 BNP 的 图 片 都 会 被 生成 器 使 用 .详情 请 查看 
此 脚本 

target size: 整数 tuple, 默 认为 (256, 256). 图 像 将 被 resize 成 该 尺寸 

color mode: 颜色 模式 ,为 "grayscale","rgb" 之 一 ,默认 为 "rgb". 代 表 这 些 图 片 
是 否 会 被 转换 为 单 通道 或 三 通道 的 图 片 . 

classes: 可 选 参 数 ,为 子 文件 夹 的 列表 ,如 ['dogs'",'cats'] 默 认为 None. 若 未 提 
供 , 则 该 类 别 列表 将 从 directory 下 的 子 文 件 夹 名 称 /结构 自动 推断 。 每 
一 个 子 文件 夹 都 会 被 认为 是 一 个 新 的 类 。( 类 别 的 顺序 将 按照 字母 表 顺 序 映 
射 到 标签 值 )。 通 过 属性 class indices 可 获得 文件 夹 名 与 类 的 序号 的 对 
class_mode: "categorical", "binary", "sparse" 或 None 之 一 . 默认 

为 "categorical. 该 参数 决定 了 返回 的 标签 数组 的 形式 , "categorical" 会 返回 
2D 的 one-hot 编 码 标 签 ,"binary" 返 回 1D 的 二 值 标签 ."sparse" 返 回 1D 的 整数 
标签 ,如 果 为 None 则 不 返回 任何 标签 , 生成 器 将 仅仅 生成 batch 数 据 , 这 种 情 
况 在 使 

用 model.predict generator() 和 model.evaluate generator() 等 
函数 时 会 用 到 . 

batch_size: batch 数 据 的 大 小 ,默认 32 

shuffle: 是 否 打 乱 数 据 ,默认 为 True 

seed: 可 选 参数 , 打 乱 数据 和 进行 变换 时 的 随机 数 种 子 

save_to_dir: None 或 字符 串 ， 该 参数 能 让 你 将 提升 后 的 图 片 保存 起 来 ， 用 
以 可 视 化 

save prefix : 字符 串 ， 保 存 提升 后 图 片 时 使 用 的 前 缓 , 仅 当 设置 

了 save_to_dir 时 生效 

save format : "png" 或 "jpeg" 之 一 ， 指 定 保存 图 片 的 数据 格式 ,默认 "jpeg" 
flollow links: 是 否 访 问 子 文件 夹 中 的 软 链 接 


| F 


使 用 .flow() 的 例子 


(x train, y train), (x test, y test) = cifari0.load_data() 
y train - np utils.to categorical(y train, num classes) 
y test - np utils.to categorical(y test, num classes) 


datagen - ImageDataGenerator( 
featurewise center-True, 
featurewise std normalization-Tirue, 
rotation range-20, 
width shift rangezo.2, 
height shift range-0.2, 
horizontal flip-True) 


4 compute quantities required for featurewise normalization 

# (std, mean, and principal components if ZCA whitening is appli 
ed) 

datagen.fit(x train) 


# fits the model on batches with real-time data augmentation: 
model.fit generator(datagen.flow(x train, y train, batch size-32 


); 


steps per epoch-len(x train), epochs=epochs ) 


# here's a more "manual" example 
for e in range(epochs): 
print 'Epoch', e 
batches = 0 
for x_batch, y_batch in datagen.flow(x_train, y_train, batch 
_$1ze=32): 
loss = model.train(x_batch, y_batch) 
batches += 1 
if batches >= len(x_train) / 32: 
# we need to break the loop by hand because 
# the generator loops indefinitely 
break 


使 用 .flow from directory(directory) 的 例子 


train datagen = ImageDataGenerator( 
rescale=1./255, 
shear_range=0.2, 
zoom_range=0.2, 
horizontal_flip=True) 


test datagen = ImageDataGenerator(rescale=1 ./255) 


train generator = train datagen.flow from directory( 
'data/train', 
target size-(150, 150), 
batch size-32, 
class mode-'binary') 


validation generator - test datagen.flow from directory( 
'data/validation', 
target size-(150, 150), 
batch size-32, 
class mode-'binary') 


model.fit generator( 
train generator, 
steps per epoch-2000, 
epochs=50, 
validation_data=validation_generator, 
validation_steps=800) 


同时 变换 图 像 和 mask 


# we create two instances with the same arguments 

data_gen_args = dict(featurewise_center=True, 
featurewise_std_normalization=True, 
rotation_range=90., 
width_shift_range=0.1, 
height_shift_range=0.1, 
zoom_range=0. 2) 

image datagen = ImageDataGenerator(**data gen args) 

mask datagen - ImageDataGenerator(**data gen args) 


4 Provide the same seed and keyword arguments to the fit and flo 
w methods 

seed = 1 

image_datagen.fit(images, augment=True, seed=seed) 
mask_datagen.fit(masks, augment=True, seed=seed) 


image generator = image datagen.flow from directory( 
'data/images', 
class mode=None, 
seed-seed) 


mask generator - mask datagen.flow from directory( 
'data/masks', 
class mode=None, 
seed-seed) 


4 combine generators into one which yields image and masks 
train generator - zip(image generator, mask generator) 


model.fit generator( 
train generator, 
steps per epoch-2000, 
epochs-50) 


目标 函数 objectives 
目标 函数 ， 或 称 损失 函数 ， 有 是 编译 一 个 模型 必须 的 两 个 参数 之 一 : 


model.compile(loss='mean_squared_error', optimizer-'sgd') 


PVM SRM CL AR BAS!’ SHCA BR MTBF 
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个 标量 值 ， 并 以 下 列 两 个 参数 为 参数 : 


e y true: 真实 的 数据 标签 ，Theano/TensorFlow 张 量 


e y pred: 预测 值 ， 与 y_true 相 同 shape 的 Theano/TensorFlow 张 量 python 
from keras import losses 


model.compile(loss=losses.mean_squared_error, optimizer=' sgd ) 


KAVA B d BARES SAGE RAF BI OAK HA Fo 049 4 4 


A&A [BAdsX34X45](https://github.com/fchollet/keras/blob/master/ 
keras/objectives.py) 获 取 更 多 信息 


HH 可 用 的 目标 函数 

* mean_sdquared_error 或 mse 

* mean_absolute_error Amae 

* mean_absolute_percentage_error 或 mape 


* mean squared logarithmic error3msle 


* 


squared hinge 

* hinge 

* binary crossentropy ( 亦 称 作对 数 损失 ，logloss) 
* logcosh 


* categorical_ eho Mo : E ， eee 目标 函数 时 ， 
需要 将 标签 转化 为 形 如 ` ^^ (nb. samples, nb classes)? 二 值 序列 


* sparse categorical crossentrop : 如 上 ， 但 接受 稀疏 标签 。 注 意 ， 使 用 该 函 


数 时 仍然 需要 你 的 标签 与 输出 值 的 维度 相同 ， 你 可 能 需要 在 标签 数据 上 增加 一 个 维度 : 


~*np.expand_dims(y, -1) 

e kullback leibler divergence: 15 MAAM ZT 7p Q $1 A ALE D> Ap P4348 8:38 
用 以 度量 两 个 分 布 的 差异 . 

e poisson : 即 (predictions - targets * log(predictions)) 的 均值 


e cosine proximity : 即 预 测 值 与 真实 标签 的 余弦 距离 平均 值 的 相反 数 


SZ 
Zz 


Sm. 


注意 : 当 使 用 "categorical_crossentropy" 作 为 目标 函数 时 ,标签 应 该 为 多 类 模式 , 即 
one-hot 编 码 的 向 量 ,而 不 是 单个 数值 . 可 以 使 用 工具 中 的 to categorical HAZ 
成 该 转换 .示例 如 下 : 


from keras.utils.np_utils import to_categorical 


categorical_labels = to_categorical(int_labels, num_classes=None 


) 


KAt 25 optimizers 
优化 器 是 编译 Keras 模 型 必要 的 两 个 参数 之 一 
from keras import optimizers 
model = Sequential() 
model.add(Dense(64, init='uniform', input_shape=(10, ))) 


model.add(Activation( tanh')) 
model.add(Activation('softmax')) 


sgd = optimizers.SGD(lr-0.01, decay=1e-6, momentum=0.9, nesterov= 


model.compile(loss='mean_squared_error', optimizer=sgd) 


图 = 


可 以 在 调用 model.compile() 之 前 初始 化 一 个 优化 器 对 象 ， 然 后 传 入 该 函数 (如 
上 所 示 ) ， 也 可 以 在 调用 model.compile() 时 传递 一 个 预定 义 优化 器 名 。 在 后 者 


情形 下 ， 优 化 器 的 参数 将 使 用 默认 值 。 


# pass optimizer by name: default parameters will be used 
model.compile(loss='mean_squared_error', optimizer='sgd' ) 


所 有 优化 器 都 可 用 的 参数 


参数 clipnorm 和 clipvalue 是 所 有 优化 器 都 可 以 使 用 的 参数 ,用 于 对 梯度 


裁剪 .示例 如 下 : 


from keras import optimizers 


# All parameter gradients will be clipped to 
# a maximum norm of 1. 
sgd = optimizers.SGD(lrz0.01, clipnorm=1. ) 
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from keras import optimizers 


# All parameter gradients will be clipped to 
# a maximum value of 0.5 and 

# a minimum value of -0.5. 

sgd = optimizers.SGD(lr-z0.01, clipvalue=0.5) 


SGD 


keras.optimizers.SGD(lr-0.01, momentum=0.0, decay=0.0, nesterov= 
False) 


Ra pute RPK AFEA” RAFI RRR? lkr Nesterovž = 


参数 


e r: 大 于 0 的 肖 点 数 ， 学 习 率 
e momentum : 大 于 0 的 浮 点 数 ， 动 量 参数 
e decay: 大 于 0 的 浮 点 数 ， 每 次 更 新 后 的 学 习 率 衰减 值 


e nesterov : 布尔 值 ， 确 定 是 否 使 用 Nesterov 动 量 


RMSprop 


keras.optimizers.RMSprop(lr=0.001, rho=0.9, epsilon=1e-06) 


除 学 习 率 可 调整 外 ， 建 议 保 持 优化 器 的 其 他 默认 参数 不 变 


该 优化 器 通常 是 面 对 递 归 神 经 网 络 时 的 一 个 良好 选择 


参数 


e |r :大 于 0 的 浮 点 数 ， 学 习 率 
e rho: 大 于 0 的 浮 点 数 


e epsilon: 大 于 0 的 小 浮 点 数 ， 防 止 除 0 错 误 


Adagrad 


keras.optimizers.Adagrad(lrz0.01, epsilon-ie-06) 
建议 保持 优化 器 的 默认 参数 不 变 


Adagrad 


e lr: 大 于 0 的 浮 点 数 ， 学 习 率 


e epsilon: 大 于 0 的 小 浮 点 数 ， 防 止 除 0 错 误 


Adadelta 


keras.optimizers.Adadelta(lr-1.0, rho=0.95, epsilon=1e-06) 
建议 保持 优化 器 的 默认 参数 不 变 
参数 


e r: KTO AA” ŽŽ 
e rho: 大 于 0 的 浮 点 数 


e epsilon: 大 于 0 的 小 浮 点 数 ， 防 止 除 0 错 误 


参考 文献 


e Adadelta - an adaptive learning rate method 


Adam 


keras.optimizers.Adam(lr-0.001, beta_1=0.9, beta_2=0.999, epsilo 
n=1e-08) 


该 优化 器 的 默认 值 来 源 于 参考 文献 


参数 


e r: X TOS E RR? FI 
e beta 1/beta 2: i$, 22° O«beta«1 > 14 % 4&4 E 1 


e epsilon: 大 于 0 的 小 浮 点 数 ， 防 止 除 0 错误 


e Adam -AMethod for Stochastic Optimization 


Adamax 


keras.optimizers.Adamax(lr-0.002, beta_1=0.9, beta 2-0.999, epsi 
lon=1e-08) 


Adamax 优 化 器 来 自 于 Adam 的 论文 的 Section7， 该 方法 是 基于 无 穷 范 数 的 Adam 方 
法 的 变 体 。 


默认 参数 由 论文 提供 


参数 


e Ir: ATOM RRM: FIR 
e beta 1/beta 2 : 浮 点 数 ，0<beta<1， 通 常 很 接近 1 
e epsilon: 大 于 0 的 小 浮 点 数 ， 防 止 除 0 错 误 

参考 文献 


e Adam - A Method for Stochastic Optimization 


Nadam 


keras.optimizers.Nadam(l1r-0.002, beta_1=0.9, beta_2=0.999, epsil 
on=1e-08, schedule_decay=0.004) 


Nesterov Adam optimizer: Adam 本 质 上 像 是 带 有 动量 项 的 RMSprop，Nadam 就 是 
带 有 Nesterov 动量 的 Adam RMSprop 


默认 参数 来 自 于 论文 ， 推 荐 不 要 对 默认 参数 进行 更 改 。 
参数 
e :大 于 0 的 浮 点 数 ， 学 习 率 
e beta 1/beta 2 : 浮 点 数 ，0<beta<1， 通 常 很 接近 1 
e epsilon: 大 于 0 的 小 浮 点 数 ， 防 止 除 0 错误 
参考 文献 
e Nadam report 


e Onthe importance of initialization and momentum in deep learning 


TFOptimizer 


keras.optimizers.TFOptimizer (optimizer ) 


TF 优化 器 的 包装 器 


激活 函数 Activations 


激活 函数 可 以 通过 设置 单独 的 激活 层 实 现 ， 也 可 以 在 构造 层 对 象 时 通过 传 
递 activation 参数 实现 。 


from keras.layers import Activation, Dense 


model.add(Dense(64) ) 
model.add(Activation('tanh')) 


等 价 于 


model.add(Dense(64, activation='tanh')) 


也 可 以 通过 传递 一 个 逐 元 素 运算 的 Theano/TensorFlow 函 数 来 作为 激活 函数 : 
from keras import backend as K 


def tanh(x): 
return K.tanh(x) 


model.add(Dense(64, activation=tanh) ) 
model .add(Activation(tanh) 


x > a Ey te. 34 
TR EBS BH 
e softmax : 对 输入 数据 的 最 后 一 维 进行 Softmax， 输 入 数据 应 形 
如 (nb samples, nb timesteps, nb dims) 或 (nb samples,nb dims) 
e elu 
e softplus 


e softsign 


e relu 

e tanh 

e sigmoid 

e hard_sigmoid 


e linear 


高 级 激活 函数 


对 于 简单 的 Theano/TensorFlow 不 能 表达 的 复杂 激活 函数 ， 如 含有 可 学 习 参 数 的 激 
活 函 数 ， 可 通过 高 级 激活 函数 实现 ， 如 PReLU，LeakyReLU 等 


性 能 评估 


使 用 方法 


性 能 评估 模块 提供 了 一 系列 用 于 模型 性 能 评估 的 函数 ,这 些 函 数 在 模型 编译 时 
由 metrices 关键 字 设 置 


性 能 评估 元 数 类 似 与 目标 部 数 , 只 不 过 该 性 能 的 评估 结果 讲 不 会 用 于 训练 . 
可 以 通过 字符 串 来 使 用 域 定义 的 性 能 评估 兄 数 
model.compile(loss-'mean squared error', 


optimizer='sgd', 
metrics-['mae', 'acc']) 
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from keras import metrics 
model.compile(loss-'mean squared error', 
optimizer='sgd', 


metrics=[metrics.mae, metrics.categorical_accuracy 


]) 


参数 


e y true: 3: 4# & ,theano/tensorflow 7k = 
e y_pred: 预 测 值 , Sy_ true X8 F] 49 theano/tensorflow 3k = 


返回 值 


单个 用 以 代表 输出 各 个 数据 点 上 均值 的 值 


可 用 预定 义 张 量 


除 fbeta_score 额 外 拥有 默认 参数 beta=1 外 ,其 他 各 个 性 能 指标 的 参数 均 为 y_true 和 
y_pred 


e binary_accuracy: 对 二 分 类 问题 ,计算 在 所 有 预测 值 上 的 平均 正确 率 

e categorical _accuracy: 对 多 分 类 问题 ,计算 再 所 有 预测 值 上 的 平均 正确 率 

e sparse _categorical_accuracy:4 categorical_accuracy 相同 ,在 对 稀疏 的 目 
标 值 预测 时 有 用 

e top k categorical accracy: 计算 top-k 正 确 率 , 当 预 测 值 的 前 k 个 值 中 存在 目标 类 
别 即 认为 预测 正确 


定制 评估 函数 


定制 的 评估 函数 可 以 在 模型 编译 时 传 入 ,该 函数 应 该 以 (y true, y pred) 为 参数 ， 
并 返回 单个 张 量 , 或 从 metric name 映射 到 metric value 的 字典 ,下 面 是 一 个 示 


"du 


Sy 
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(y_true, y_pred) as arguments and return a single tensor value. 


import keras.backend as K 


def mean_pred(y_true, y_pred): 
return K.mean(y_pred) 


model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy', mean_pred]) 


初始 化 方法 


初始 化 方法 定义 了 对 Keras 层 设置 初始 化 权重 的 方法 


不 同 的 层 可 能 使 用 不 同 的 关键 字 来 传递 初始 化 方法 ， 一 般 来 说 指定 初始 化 方法 的 关 


键 字 是 kernel initializer 和 bias initializer ， 例 如 : 


model.add(Dense(64, 
kernel_initializer='random_uniform', 
bias_initializer='zeros')) 


一 个 初始 化 器 可 以 由 字符 串 指 定 (必须 是 下 面 的 预定 义 初 始 化 器 之 一 ) ， 或 一 个 
callable 85 % 2 > | 40 


from keras import initializers 


model.add(Dense(64, kernel_initializer=initializers.random_norma 
1(stddev=0.01))) 


# also works; will use the default parameters. 


model.add(Dense(64, kernel initializer-'random normal')) 


Initializer 


Initializer 是 所 有 初始 化 方法 的 父 类 ， 不 能 直接 使 用 ， 如 果 想 要 定义 自己 的 初始 化 方 
法 ， 请 继承 此 类 。 


预定 义 初始 化 方法 
Zeros 


keras.initializers.Zeros() 


keras.initializers.Ones() 


全 1 初始 化 


Constant 


keras.initializers.Constant(value=0) 


初始 化 为 固定 值 value 


RandomNormal 


keras.initializers.RandomNormal(mean=0.0, stddev=0.05, seed=None 


)) 


正 态 分 布 初始 化 


e mean: 均值 
e stddev : 标准 差 
e seed : 随机 数 种 子 


RandomUniform 


keras.initializers.RandomUniform(minval--0.05, maxval=0.05, seed- 
None) 


Bn———————————————————————————————————————— uie] 
均匀 分 布 初始 化 


e minval : 均匀 分 布下 边界 


e maxval : 均匀 分 布 上 边界 
e seed : 随机 数 种 子 


TruncatedNormal 


keras.initializers.TruncatedNormal(mean=0.0, stddev=0.05, seed=N 
one) 


截 尾 高 斯 分 布 初始 化 ， 该 初始 化 方法 与 RandomNormal 类 似 ， 但 位 于 均值 两 个 标准 
差 以 外 的 数据 将 会 被 丢弃 并 重新 生成 ， 形 成 截 尾 分 布 。 该 分 布 是 神经 网 络 权 重 和 滤 
波 器 的 推荐 初始 化 方法 。 


e mean: 均值 
e stddev : 标准 差 
e seed : 随机 数 种 子 


VarianceScaling 


keras.initializers.VarianceScaling(scale=1.0, mode='fan_in', dis 
tribution='normal', seed=None) 
该 初始 化 方法 能 够 自 适 应 目标 张 量 的 shape 。 


当 distribution="normal" 时 ， 样 本 从 0 均值 ， 标准 差 为 sqrt(scale / n) 的 截 尾 正 
态 分 布 中 产生 。 其 中 : 


* +4>**mode = "fan in" po 时 2 权重 张 量 的 输入 单元 数 Y 
* 当 `` “mode = "fan_out"``` 时 ， 权 重 张 量 的 输出 单元 数 
* Z^^^mode = "fan avg" “时 ， 权 重 张 量 的 输入 输出 单元 数 的 均值 
4 distribution="uniform" 时 ， 权 重 从 [-limit, lim 间 范围 内 均匀 采样 ， 其 中 limit 


= limit = sqrt(3 * scale / n) 


e scale: 放 缩 因子 ， 正 浮 点 数 
e mode: 字符 串 ，“fan_in”，“fan_out" 或 “fan_avg”fan_in", "fan out", "fan avg". 
e distribution: 5*4 # > “normal” 3 “uniform”. 


e seed: 随机 数 种 子 
Orthogonal 
keras.initializers.Orthogonal(gain=1.9, seed=None) 


用 随机 正 交 矩阵 初始 化 


e gain: 3E X 4E E hg de pe A d 
e seed : 随机 数 种 子 


参考 文献 : Saxe et al. 
Identiy 
keras.initializers.Identity(gain=1.0) 


使 用 单位 矩阵 初始 化 ， 仅 适用 于 2D 方 阵 


e gain : 单位 矩阵 的 乘 性 系数 
lecun_uniform 
lecun_uniform(seed=None) 


LeCun 均 匀 分 布 初始 化 方法 ， 参 数 由 [-limit, limitl 的 区 间 中 均匀 采样 获得 ， 其 中 
limit=sqrt(3 / fan in), fin_in 是 权重 向 量 的 输入 单元 数 (MA) 


e seed : 随机 数 种 子 


参考 文献 : LeCun 98, Efficient Backprop 
glorot_normal 


glorot_normal(seed=None) 


Glorot 正 态 分 布 初始 化 方法 ， 也 称 作 Xavier 正 态 分 布 初始 化 ， 参 数 由 0 均值 ， 标 准 差 
为 sqrt(2 / (fan in + fan_out)) 的 正 态 分 布 产生 ， 其 中 fan_ in 和 fan_out 是 权重 张 量 的 
扇 入 局 出 〈( 即 输入 和 输出 单元 数目 ) 


e seed : 随机 数 种 子 


参考 文献 : Glorot & Bengio, AISTATS 2010 


he_normal 


he_normal(seed=None) 


He 正 态 分 布 初始 化 方法 ， 也 称 作 Xavier 正 态 分 布 初始 化 ， 参 数 由 0 均值 ， 标 准 差 为 
sqrt(2 / fanin) 的 正 态 分 布 产 生 ， 其 中 fan_in 权 重 张 量 的 扇 入 


e seed : 随机 数 种 子 


参考 文献 : He et al 
he_uniform 


he_normal(seed=None) 


LeCun 均 匀 分 布 初始 化 方法 ， 参 数 由 [-limit, limitl 的 区 间 中 均匀 采样 获得 ， 其 中 
limit=sqrt(6 / fan in), fin_in 是 权重 向 量 的 输入 单元 数 ( 户 入 ) 


e seed : 随机 数 种 子 


参考 文献 : He et al 
C A a 
自 定 义 初始 化 器 
如 果 需 要 传递 自 定义 的 初始 化 器 ， 则 该 初始 化 器 必须 是 callable 的 ， 并 且 接 


收 shape (将 被 初始 化 的 张 量 shape) 和 dtype (数据 类 型 ) 两 个 参数 ， 并 返回 
符合 shape 和 dtype 的 张 量 。 


from keras import backend as K 


def my_init(shape, dtype=None): 
return K.random normal(shape, dtype=dtype) 


model.add(Dense(64, init-my init)) 


正则 项 


正则 项 在 优化 过 程 中 层 的 参数 或 层 的 激活 值 添加 息 罚 项 ， 这 些 惩罚 项 将 与 损失 函数 


一 起 作为 网 络 的 最 终 优 化 目标 


惩罚 项 基于 层 进 行 惩罚 ， 目 前 惩罚 项 的 接口 与 层 有 关 ， 但 Dense，Conv1D， 
Conv2D, Conv3D de 同 的 接口 。 


些 层 有 三 个 关键 字 参 数 以 施加 正则 项 


e kernel_regularizer : 施加 在 权重 上 的 正则 项 ， 


为 keras.regularizer.Regularizer 对 象 


e bias regularizer : 施加 在 偏 置 向 量 上 的 正则 项 > 


为 keras.regularizer.Regularizer 对 象 


e activity regularizer : 施加 在 输出 上 的 正则 项 ， 


为 keras.regularizer.Regularizer 对 象 


UU 


from keras import regularizers 

model.add(Dense(64, input dim-64, 
kernel regularizer-regularizers.12(0.01), 
activity regularizer-regularizers.11(0.01))) 


FF] 3E Jr] 


keras.regularizers.l1(0.) 
keras.regularizers.12(0.) 
keras.regularizers.11_12(0.) 
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任何 以 权重 矩阵 作为 输入 并 返回 单个 数值 的 函数 均 可 以 作为 正则 项 ， 示 例 : 
from keras import backend as K 


def 11 reg(weight matrix): 
return 0.01 * K.sum(K.abs(weight matrix)) 


model.add(Dense(64, input dim-64, 
kernel regularizer-11 reg) 


可 参考 源 代码 keras/regularizer.py 


约束 项 
KA constraints 模块 的 函数 在 优化 过 程 中 为 网 络 的 参数 施加 约束 


惩罚 项 基于 层 进 行 惩 罚 ， 目 前 惩罚 项 的 接口 与 层 有 关 ， 但 Dense, ConviD, 
Conv2D, Conv3D 具有 共同 的 接口 。 


这 些 层 通过 一 下 关键 字 施 加 约束 项 
e kernel constraint : 对 主权 重 和 矩阵 进行 约束 


e bias constraint : 对 偏 置 向 量 进 行 约束 


from keras.constraints import maxnorm 
model.add(Dense(64, kernel_constraint=max_norm(2.))) 


预定 义 约束 项 
e max_norm(m=2) : 最 大 模 约束 
e non neg(): 非 负 性 约束 


e unit norm() : 单位 范 数 约束 , 强制 矩阵 沿 最 后 一 个 轴 拥 有 单位 范 数 


EA & 2 Callbacks 
回调 函数 是 一 组 在 训练 的 特定 阶段 被 调用 的 函数 集 ， 你 可 以 使 用 回调 函数 来 观察 训 


练 过 程 中 网 络 内 部 的 状态 和 统计 信息 。 通 过 传递 回调 函数 列表 到 模型 
的 ,fit() 中 ， 即 可 在 给 定 的 训练 阶段 调用 该 函数 集中 的 函数 。 


【Tips】 虽 然 我 们 称 之 为 回调 "函数 "， 但 事实 上 Keras 的 回调 函数 是 一 个 类 ， 回 调 函 
数 只 是 习惯 性 称呼 


Callback 


keras.callbacks.Callback() 


这 是 回调 函数 的 抽象 类 ， 定 义 新 的 回调 函数 必须 继承 自 该 类 


类 属性 
e params : 字典 ， 训 练 参数 集 (如 信息 显示 方法 verbosity，batch 大 小 ，epoch 
数 ) 


e model: keras.models.Model 对 和 象 ， 为 正在 训练 的 模型 的 引用 


回调 函数 以 字典 logs 为 参数 ， 该 字典 包含 了 一 系列 与 当前 batch 或 epoch 相 关 的 信 


目前 ， 模 型 的 ,fit() 中 有 下 列 参数 会 被 记录 到 logs 中 : 
e 在 每 个 epoch 的 结尾 处 (on epoch end) > logs 将 包含 训练 的 正确 率 和 误 
差 ，acc 和 loss ， 如 果 指 定 了 验证 集 ， 还 会 包含 验证 集 正确 举 和 误 
# val acc) 和 val loss > val acc 还 额外 需要 在 .compile 中 局 


用 metrics-['accuracy'] ° 


e 在 每 个 batch 的 开始 处 (on batch begin) : logs 包含 size ， 即 当前 
batch 的 样本 数 
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e 在 每 个 batch 的 结尾 处 (on batch end) : logs &4 


用 accuracy 则 还 包含 acc 


BaseLogger 


keras.callbacks.BaseLogger() 


该 回调 函数 用 来 对 每 个 epoch 累 加 metrics 指定 的 监视 指标 的 epoch 平 均值 


该 回调 函数 在 每 个 Keras 模 型 中 都 会 被 自动 调用 


ProgbarLogger 


keras.callbacks.ProgbarLogger() 


该 回调 函数 用 来 将 metrics 指定 的 监视 指标 输出 到 标准 输出 上 


History 
keras.callbacks.History() 


该 回调 函数 在 Keras 模 型 上 会 被 自动 调用 ， History 对 象 即 为 fit 方法 的 返回 值 


ModelCheckpoint 


keras.callbacks.ModelCheckpoint(filepath, monitor='val_loss', ve 
rbose=0, save_best_only=False, save_weights_only=False, mode='au 
to', period=1) 


该 回调 函数 将 在 每 个 epoch 后 保存 模型 到 filepath 


E: 


lt » ^^^filepath^ "^ X X^^"weights.(epoch:02d-(val loss:.2f)).hdf5 
`“， 则 会 生成 对 应 epoch 和 验证 集 1oss 的 多 个 文件 。 


* filename: 字符 串 ， 保 存 模型 的 路 径 

* monitor : 需要 监视 的 值 

* verbose : 信息 展示 模式 ，0 或 1 

* save best only: 当 设 置 为 "True ` 时 ， 将 只 保存 在 验证 集 上 性 能 最 好 的 模型 
* mode: ‘auto’ > ‘min’ > ‘max’2—» 4&^^'save best only-True ` 时 决定 
性 能 最 佳 模 型 的 评判 准则 ， 例 如 ， 当 监测 值 为 `Vval_acc ~ 人、 时， 模式 应 为 `max ` 
`“， 当 检测 值 为 `、`Vval_ loss ^^ ^H EAE comin 、 。 在 人 auto 模式 下 ， 


评价 准则 由 被 监测 值 的 名 字 自 动 推断 。 


* save weights only: 若 设置 为 True， 则 只 保存 模型 权重 ， 否 则 将 保存 整个 模型 


* period: CheckPoint 之 间 的 间隔 的 epoch 数 


kkk 


## EarlyStopping 

"python 
keras.callbacks.EarlyStopping(monitor-'val loss', patience=0, ve 
rbose=0, mode-'auto') 


监测 值 不 再 改善 时 ， 该 回调 函数 将 中 止 训练 


参数 


e monitor : 需要 监视 的 量 


e patience : 当 early stop 被 激活 (如 发 现 loss 相 比 上 一 个 epoch 训 练 没有 下 
降 ) ， 则 经 过 patience 个 epoch 后 停止 训练 。 


e verbose : 信息 展示 模式 


e mode : ‘auto’ ‘min’，‘max' 之 一 ， 在 min 模式 下 ， 如 果 检 测 值 停止 下 降 则 中 
止 训练 。 在 max 模式 下 ， 当 检测 值 不 再 上 升 则 停止 训练 。 


RemoteMonitor 


keras.callbacks.RemoteMonitor(root='http://localhost:9000' ) 


该 回调 函数 用 于 向 服务 器 发 送 事 件 流 ， 该 回调 函数 需要 requests Æ 


ud 


参数 
e root : 该 参数 为 根 url|， 回 调 函 数 将 在 每 个 epoch 后 把 产生 的 事件 流 发 送 到 该 地 


址 ， 事 件 将 被 发 往 root + '/publish/epoch/end/' 。 发 送 方法 为 HTTP 
POST， 其 data 字段 的 数据 是 按 JSON 格 式 编码 的 事件 字典 。 


LearningRateScheduler 


keras.callbacks.LearningRateScheduler (schedule) 


参数 
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e schedule : 83» AHMVepochs AKA (MOHAN ER) ， 返 回 一 个 新 学 


QE (FRR) 


TensorBoard 


keras.callbacks.TensorBoard(log dir-'./logs', histogram_freq=0, 
write graph-True, write images-False, embeddings freq-0, embeddi 
ngs layer names-zNone, embeddings_metadata=None) 


该 回调 函数 是 一 个 可 视 化 的 展示 器 


TensorBoard € TensorFlow4* 4X 49 "T 具 ， 该 回调 函数 将 日 志 信 息 写 入 
TensorBorad， 使 得 你 可 以 动态 的 观 ie 练 e 测试 指标 的 图 像 以 及 不 同 层 的 激活 值 
直方 图 。 


如 果 已 经 通过 pip 安 装 了 TensorFlow， 我 们 可 通过 下 面 的 命令 启动 TensorBoard : 


tensorboard --logdir=/full_path_to_your_logs 





e log dir : 保存 日 志文 件 的 地 址 ， 该 文件 将 被 TensorBoard 解 析 以 用 于 可 视 化 


e histogram freq : 计算 各 个 层 激活 值 直方 图 的 频率 (每 多 少 个 epoch 计 算 一 
次 ) ， 如 果 设 置 为 0 则 不 计算 。 


e write graph: 是 否 在 Tensorboard 上 可 视 化 图 ， 当 设 为 True 时 ，log 文 件 可 能 会 
很 大 


e write images: 是 否 将 模型 权重 以 图 片 的 形式 可 视 化 

e embeddings freq: 依据 该 频率 (以 epoch 为 单位 ) 算 选 保存 的 embedding 层 

e embeddings layer_names: 要 观察 的 层 名 称 的 列表 ， 若 设置 为 None 或 空 列表 ， 
则 所 有 embedding 层 都 将 被 观察 。 

e embeddingsmetadata: 字典 ， 将 层 名 称 映 射 为 包含 该 embeqdding 层 元 数据 的 文 
件 名 ， 参 考 [ 这 里 ] 


(https://keras.io/https_://www.tensorflow.org/how_tos/embedding_viz/#metad 
ata_optional) 获 得 元 数据 文件 格式 的 细节 。 如 果 所 有 的 embedding 层 都 使 用 相 
同 的 元 数据 文件 ， 则 可 传递 字符 串 。 


ReduceLROnPlateau 


keras.callbacks.ReduceLROnPlateau(monitor='val_loss', factor=0.1 
, patience=10, verbose=0, mode='auto', epsilon=0.0001, cooldown=0 
, min_lr=0) 


EHE = 
当 评 价 指标 不 在 提升 时 ， 减 少 学 习 率 


当 学 习 停 淆 时 ， 减 少 2 倍 或 10 倍 的 学 习 率 常常 能 获得 较 好 的 效果 。 该 回调 函数 检测 
情况 ， 如 果 在 patience 个 epoch 中 看 不 到 模型 性 能 提升 ， 则 减少 学 习 率 


参数 


e monitor : 被 监测 的 量 

e factor : 每 次 减少 学 习 率 的 因子 ， 学 习 率 将 以 Ir = Ir*factor 的 形式 被 减少 

e patience : 当 patience 个 epoch 过 去 而 模型 性 能 不 提升 时 ， 学 习 率 减少 的 动作 会 
被 触发 

e mode : 'auto' » ‘min’ > ‘max’2— > # min HAT > PREM MARRS 2] AE 
‘Yo fe max 模式 下 ， 当 检测 值 不 再 上 升 则 触发 学 习 率 减少 。 

e epsilon : 阅 值 ， 用 来 确定 是 否 进 入 检测 值 的 “平原 区 ” 

e cooldown : 学 习 率 减少 后 ， 会 经 过 cooldown 个 epoch 才 重新 进行 正常 操作 

e min lr: 439 #4 FIR 


CSVLogger 


keras.callbacks.CSVLogger(filename, separator=',', append=False) 


a 告 果 保 存在 csv 文 件 中 ， 支 持 所 有 可 被 转换 为 String 的 值 ， 包 括 1D 的 
迭代 数值 如 np.ndarray. 


参数 


e fiename : Rit 的 CSV 文 件 名 ， 如 run/log.csv 


e separator : 字符 串 ，csv 分 隔 符 
e append: 默认 为 False， 为 True 时 csv 文 件 如 果 存 在 则 继续 写 入 ， 为 False 时 总 
是 恬 盖 csV 文 件 
LambdaCallback 


keras.callbacks.LambdaCallback(on_epoch_begin=None, on_epoch_end= 
None, on_batch_begin=None, on_batch_end=None, on_train_begin=None 
, on_train_end=None) 


| 
用 于 创建 简单 的 callback 的 callback 类 


该 callback 的 匿名 函数 将 会 在 适当 的 时 候 调用 ， 注 意 ， 该 回调 函数 假定 了 一 些 位 置 
参数 on eopoch begin 和 on epoch end 假定 输入 的 参数 是 epoch, logs. 
on_batch_begin 和 on_batch_end 假定 输入 的 参数 是 batch, 

logs ， on train begin 和 on train end 假定 输入 的 参数 是 logs 


参数 


e on_epoch_begin: 在 每 个 epoch 开 始 时 调用 
e on epoch end: 在 每 个 epoch 结 束 时 调用 
e on batch begin: 在 每 个 batch 开 始 时 调用 
e on_batch_end: 在 每 个 batch 结 束 时 调用 

e on_train_begin: 在 训练 开始 时 调用 

e on train end: 在 训练 结束 时 调用 


示例 


# Print the batch number at the beginning of every batch. 
batch_print_callback = LambdaCallback( 
on batch begin-lambda batch,logs: print(batch) ) 


4 Plot the loss after every epoch. 
import numpy as np 
import matplotlib.pyplot as plt 
plot loss callback - LambdaCallback( 
on epoch end-lambda epoch, logs: plt.plot(np.arange(epoch), 
logs['loss'])) 


# Terminate some processes after having finished model training. 
processes = ... 
cleanup callback = LambdaCallback( 

on_train_end=lambda logs: [ 

p.terminate() for p in processes if p.is_alive()]) 


model.fit(..., 
callbacks=[batch_print_callback, 
plot_loss_callback, 
cleanup callback]) 


编写 自己 的 回调 函数 


我 们 可 以 通过 继承 keras.callbacks.Callback 编写 自己 的 回调 苑 数 ， 回 调 苑 数 
通过 类 成 员 self.model 访问 访问 ， 该 成 员 是 模型 的 一 个 引用 。 
这 里 是 一 个 简单 的 保存 每 个 batch 的 loss 的 回调 函数 : 

class LossHistory(keras.callbacks.Callback): 


def on_train_begin(self, logs={}): 
self.losses = [] 


def on_batch_end(self, batch, logs={}): 
self.losses.append(logs.get('loss')) 


例子 : 记录 损失 部 数 的 历史 数据 


class LossHistory(keras.callbacks.Callback): 
def on_train_begin(self, logs={}): 
self.losses = [] 


def on_batch_end(self, batch, logs={}): 
self.losses.append(logs.get('loss')) 


model = Sequential() 

model.add(Dense(10, input_dim=784, kernel_initializer='uniform' ) 
) 

model.add(Activation('softmax')) 
model.compile(loss='categorical_crossentropy', optimizer='rmspro 
p') 


history = LossHistory() 
model.fit(X train, Y train, batch_size=128, epochs=20, verbose=0 
, callbacks-[history]) 


print history.losses 

# outputs 

[0.66047596406559383, 0.3547245744908703, ..., 0.259531552041596 
17, 0.25901699725311789] 


from keras.callbacks import ModelCheckpoint 


model = Sequential() 

model.add(Dense(10, input_dim=784, kernel_initializer='uniform' ) 
) 

model.add(Activation('softmax')) 
model.compile(loss='categorical_crossentropy', optimizer='rmspro 
p') 


saves the model weights after each epoch if the validation loss 
decreased 

checkpointer = ModelCheckpoint(filepath="/tmp/weights.hdf5", ver 
bose-i, save_best_only=True) 

model.fit(X_train, Y_train, batch_size=128, epochs=20, verbose=0 
, Validation_data=(X_test, Y test), callbacks-[checkpointer]) 
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Application 用 


Kera 的 应 用 模块 Application 提 供 了 带 有 预 训 练 权 重 的 Keras 模 型 ， 这 些 模 型 可 以 用 
来 进行 预测 、 特 征 提取 和 finetune 


模型 的 预 训 练 权重 将 下 载 到 ~/ .keras/models/ 并 在 载 入 模型 时 自动 载 入 


可 用 的 模型 
应 用 于 图 像 分 类 的 模型 ,权重 训练 自 ImageNet : 


e Xception 

e VGG16 

e VGG19 

e ResNet50 
e InceptionV3 


所 有 的 这 些 模型 ( 除 XSplon) Mo Thoanod Tonsomow ， 并 会 自动 基 

于 -/.keras/keras.json 的 Keras 的 图 像 维度 进行 自动 设置 。 例 如 ， 如 果 你 设 
置 data format-"channel last" * Un D LS E 
来 构造 ， 即 “Width-Height-Depth” 的 顺序 


利用 ResNet50 网 络 进行 ImageNet 分 类 


from keras.applications.resnet50 import ResNet50 

from keras.preprocessing import image 

from keras.applications.resnet50 import preprocess_input, decode 
_predictions 

import numpy as np 


model = ResNet50(weights='imagenet' ) 


img_path = 'elephant.jpg' 
img = image.load_img(img_path, target_size=(224, 224)) 


image.img_to_array(img) 


np.expand_dims(x, axis=0) 
preprocess_input(x) 


preds = model.predict(x) 

# decode the results into a list of tuples (class, description, 
probability) 

# (one such list for each sample in the batch) 
print('Predicted:', decode predictions(preds, top-3)[0]) 

4 Predicted: [(u'n02504013', u'Indian elephant', 0.82658225), (u 
'n01871265', u'tusker', 0.1122357), (u'n02504458', u'African ele 
phant', 0.061040461)] 
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from keras.applications.vggi16 import VGG16 

from keras.preprocessing import image 

from keras.applications.vgg16 import preprocess input 
import numpy as np 


model = VGG16(weights-'imagenet', include top-False) 


img path - 'elephant.jpg' 

img - image.load img(img path, target size-(224, 224)) 
image.img to array(img) 

np.expand dims(x, axis=0) 

preprocess input(x) 


features - model.predict(x) 


从 VGG19 的 任意 中 间 层 中 抽取 特征 


from keras.applications.inception_v3 import InceptionV3 
from keras.preprocessing import image 

from keras.models import Model 

from keras.layers import Dense, GlobalAveragePooling2D 
from keras import backend as K 


# create the base pre-trained model 
base model = InceptionV3(weights-'imagenet', include top-False) 


add a global spatial average pooling layer 


base model.output 
GlobalAveragePooling2D()(x) 
let's add a fully-connected layer 


- Dense(1024, activation-'relu')(x) 


dk x + x x +H 


and a logistic layer -- let's say we have 200 classes 
predictions = Dense(200, activation-'softmax')(x) 


# this is the model we will train 
model - Model(inputs-base model.input, outputs-predictions) 


# first: train only the top layers (which were randomly initiali 
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zed) 
# i.e. freeze all convolutional InceptionV3 layers 
for layer in base model.layers: 

layer.trainable - False 


# compile the model (should be done *after* setting layers to no 
n-trainable) 

model.compile(optimizer-'rmsprop', loss-'categorical crossentrop 
y') 


# train the model on the new data for a few epochs 
model.fit_generator(...) 


# at this point, the top layers are well trained and we can star 
t fine-tuning 

# convolutional layers from inception V3. We will freeze the bot 
tom N layers 

# and train the remaining top layers. 


# let's visualize layer names and layer indices to see how many 
layers 
# we should freeze: 
for i, layer in enumerate(base_model.layers): 
print(i, layer.name) 


# we chose to train the top 2 inception blocks, i.e. we will fre 
eze 
# the first 172 layers and unfreeze the rest: 
for layer in model.layers[:172]: 
layer.trainable = False 
for layer in model.layers[172:]: 
layer.trainable - True 


4 we need to recompile the model for these modifications to take 
effect 

4 we use SGD with a low learning rate 

from keras.optimizers import SGD 

model.compile(optimizer-SGD(lrz0.0001, momentum=0.9), loss-'cate 

gorical_crossentropy' ) 
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# we train our model again (this time fine-tuning the top 2 ince 
ption blocks 

# alongside the top Dense layers 

model.fit_generator(...) 


在 定制 的 输入 tensor 上 构建 InceptionV3 


from keras.applications.inception v3 import InceptionV3 
from keras.layers import Input 


4 this could also be the output a different Keras model or layer 
input tensor = Input(shape=(224, 224, 3)) # this assumes K.imag 
e data format() -- 'channels last' 


model = InceptionV3(input tensor-input tensor, weights- imagenet' 
, include top-True) 
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模型 文档 


Xception 

VGG16 

VGG19 

ResNet50 
InceptionV3 
MusicTaggerCRNN 


Xception 模 型 


</font> </a> 


keras.applications.xception.Xception(include_top=True, weights=' 
imagenet', 

input_tensor=None, input_sh 
ape=None, 

pooling=None, classes=1000) 


Xception V1 模型 , 权重 由 ImageNet 训 练 而 言 
在 ImageNet 上 ,该 模型 取得 了 验证 集 top1 0.790 和 top5 0.94544 3E #4 48 


注意 ,该 模型 目前 仅 能 以 TensorFlow 为 后 端 使 用 ,由 于 它 依赖 
于 "SeparableConvolution" 层 ,目前 该 模型 只 支持 channels_last 的 维度 顺序 (width， 
height, channels) 


默认 输入 图 片 大 小 为 299x299 
参数 


e include top: 是 否 保留 顶层 的 3 个 全 连接 网 络 

e weights : None 代 表 随 机 初始 化 ， 即 不 加 载 预 训 练 权重 。'imagenet' 代 表 加 载 预 
训练 权重 

e input tensor : 可 填 入 Keras tensor 作 为 模型 的 图 像 输 出 tensor 

e input shape : 可 选 ， 仅 当 include top-False 有 效 ， 应 为 长 为 3 的 tuple， 指 
明 输 入 图 片 的 shape， 图 片 的 宽 高 必须 大 于 71， 如 (150,150,3) 

e pooling : 当 include_top=False 时 ， 该 参数 指定 了 池 化 方式 。None 代 表 不 池 
化 ， 最 后 一 个 卷 积 层 的 输出 为 4D 张 量 。'avg' 代 表 全 局 平均 池 化 ，'max' 代 表 全 
局 最 大 值 池 化 。 


e classes: 可 选 ， 图 片 分 类 的 类 别 数 ， 仅 当 include_top=True 并 且 不 加 载 预 
训练 权重 时 可 用 。 


返回 值 


Keras 模型 对 象 


参考 文献 


e Xception: Deep Learning with Depthwise Separable Convolutions 


License 


预 训 练 权重 由 我 们 自己 训练 而 来 ， 基 于 MIT license £ 7p 


VGG16 模 型 


</font> </a> 


keras.applications.vgg16.VGG16(include_top=True, weights-'imagen 
et', 
input_tensor=None, input_shape= 
None, 
pooling=None, 
classes=1000) 
[| 
VGG16 模 型 ,权重 由 ImageNet 训 练 而 来 


该 模型 再 Theano 和 TensorFlow 后 端 均 可 使 用 ,并 接受 channels_first 和 channels_last 
两 种 输入 维度 顺序 


模型 的 默认 输入 尺寸 时 224X224 
参数 


e include top: 是 否 保留 顶层 的 3 个 全 连接 网 络 

e weights : None 代 表 随 机 初始 化 ， 即 不 加 载 预 训练 权重 。'imagenet' 代 表 加 载 预 
训练 权重 

e input tensor : 可 填 入 Keras tensor 作 为 模型 的 图 像 输出 tensor 

e input_shape : 可 选 ， 仅 当 include_top=False 有 效 ， 应 为 长 为 3 的 tuple， 指 
明 输 入 图 片 的 shape， 图 片 的 宽 高 必须 大 于 48， 如 (200,200,3) 


返回 值 


e pooling : 当 include_top=False 时 ， 该 参数 指定 了 池 化 方式 。 None RA xS 
化 ， 最 后 一 个 卷 积 层 的 输出 为 4D 张 量 。'avg' 代 表 全 局 平均 池 化 ，'max' 代 表 全 
局 最 大 值 池 化 。 

e classes : 可 选 ， 图 片 分 类 的 类 别 数 ， 仅 当 include_top=True 并 且 不 加 载 预 
训练 权重 时 可 用 。 


Keras 模型 对 象 


e Very Deep Convolutional Networks for Large-Scale Image Recognition : 如 果 
在 研究 中 使 用 了 VGG， 请 引用 该 文 


License 


预 训练 权重 由 牛津 VGG 组 发 布 的 预 训练 权重 移植 而 来 ， 基 于 Creative Commons 
Attribution License 


VGG19 模 型 


</font> </a> 


keras.applications.vgg19.VGG19(include_top=True, weights='imagen 
et ' ， 

input_tensor=None, input_shape= 
None, 

pooling=None, 

classes=1000) 


[E gai 
VGG19 模 型 ,权重 由 ImageNet 训 练 而 来 


该 模型 在 Theano 和 TensorFlow 后 端 均 可 使 用 ,并 接受 channels first 和 channels last 
两 种 输入 维度 顺序 


模型 的 默认 输入 尺寸 时 224x224 


参数 


include top : 是 否 保 留 顶 层 的 3 个 全 连接 网 络 

weights : None 代 表 随 机 初始 化 ， 即 不 加 载 预 训练 权重 。'imagenet' 代 表 加 载 预 
训练 权重 

input tensor : 可 填 入 Keras tensor 作 为 模型 的 图 像 输出 tensor 

input_shape : 可 选 ， 仅 当 include_top=False 有 效 ， 应 为 长 为 3 的 tuple， 指 
明 输 入 图 片 的 shape， 图 片 的 宽 高 必须 大 于 48， 如 (200,200,3) 

pooling : 当 include_top=False 时 ， 该 参数 指定 了 池 化 方式 。None 代 表 不 池 

化 ， 最 后 一 个 卷 积 层 的 输出 为 4D 张 量 。'avg' 代 表 全 局 平均 池 化 ，‘max' 代 表 全 

局 最 大 值 池 化 。 

classes : 可 选 ， 图 片 分 类 的 类 别 数 ， 仅 当 include_top=True 并 且 不 加 载 预 

训练 权重 时 可 用 。 


返回 值 


返回 值 


Keras 模型 对 象 


Very Deep Convolutional Networks for Large-Scale Image Recognition : 4e X 
在 研究 中 使 用 了 VGG， 请 引用 该 文 


License 


预 训练 权重 由 牛津 VGG 组 发 布 的 预 训练 权重 移植 而 来 ， 基 于 Creative Commons 
Attribution License 


ResNet50 模 型 


</font> </a> 


keras.applications.resnet50.ResNet50(include_top=True, weights=' 
imagenet', 

input_tensor=None, input_shape= 
None, 

pooling=None, 

classes=1000) 


«| So 





50 层 残 差 网 络 模 型 ,权重 训练 自 ImageNet 


该 模型 在 Theano 和 TensorFlow 后 端 均 可 使 用 ,并 接受 channels_first 和 channels_last 
两 种 输入 维度 顺序 


模型 的 默认 输入 尺寸 时 224X224 
参数 


e include top : 是 否 保留 顶层 的 全 连接 网 络 

e weights : None 代 表 随 机 初始 化 ， 即 不 加 载 预 训练 权重 。'imagenet' 代 表 加 载 预 
训练 权重 

e input tensor : T38 A Keras tensor 作 为 模型 的 图 像 输出 tensor 

e input_shape : 可 选 ， 仅 当 include_top=False 有 效 ， 应 为 长 为 3 的 tuple， 指 
明 输 入 图 片 的 shape， 图 片 的 宽 高 必须 大 于 197， 如 (200,200,3) 

e pooling : 当 include_top=False 时 ， 该 参数 指定 了 池 化 方式 。None 代 表 不 池 
化 ， 最 后 一 个 卷 积 层 的 输出 为 4D 张 量 。'avg' 代 表 全 局 平均 池 化 ，'max' 代 表 全 
局 最 大 值 池 化 。 

e classes: 可 选 ， 图 片 分 类 的 类 别 数 ， 仅 当 include_top=True 并 且 不 加 载 预 
训练 权重 时 可 用 。 


返回 值 
Keras 模型 对 象 


参考 文献 


e Deep Residual Learning for Image Recognition : 如 果 在 研究 中 使 用 了 
ResNet50， 请 引用 该 文 


License 


预 训 练 权 重 由 Kaiming He 发 布 的 预 训练 权重 移植 而 来 ， 基 于 MIT License 


InceptionV3 模 型 


</font> </a> 


keras.applications.inception_v3.InceptionV3(include_top=True, 
weights='imagenet', 
input_tensor=None, 
input_shape=None, 
pooling=None, 
classes=1000) 


InceptionV3 网 络 ,权重 训练 自 ImageNet 


该 模型 在 Theano 和 TensorFlow 后 端 均 可 使 用 ,并 接受 channels_first 和 channels_last 
两 种 输入 维度 顺序 


模型 的 默认 输入 尺寸 时 299x299 
参数 


e include top : 是 否 保留 顶层 的 全 连接 网 络 

e weights : None 代 表 随 机 初始 化 ， 即 不 加 载 预 训练 权重 。'imagenet' 代 表 加 载 预 
训练 权重 

e input tensor : 可 填 入 Keras tensor 作 为 模型 的 图 像 输出 tensor 

e pooling : 当 include top=False 时 ， 该 参数 指定 了 池 化 方式 。None 代 表 不 池 
化 ， 最 后 一 个 卷 积 层 的 输出 为 4D 张 量 。'avg' 代 表 全 局 平均 池 化 ，'max' 代 表 全 
局 最 大 值 池 化 。 

e classes: 可 选 ， 图 片 分 类 的 类 别 数 ， 仅 当 include_top=True 并 且 不 加 载 预 
训练 权重 时 可 用 。 


返回 值 


Keras 模型 对 象 


e Rethinking the Inception Architecture for Computer Vision : 如 果 在 研究 中 使 
用 了 InceptionV3， 请 引用 该 文 


License 


预 训 练 权 重 由 我 们 自己 训练 而 来 ， 基 于 MIT License 


第 用 数据 库 


CIFAR10 小 图 片 分 类 数据 集 


该 数据 库 具 有 50,000 个 32*32 的 彩色 图 片 作为 训练 集 ，10,000 个 图 片 作为 测试 集 。 
图 片 一 共有 10 个 类 别 。 


使 用 方法 


from keras.datasets import cifar10 


(X train, y train), (X test, y test) = cifari0.load_data() 


返回 值 : 


两 个 Tuple 


X train 和 X test 是 形 如 (nb samples, 3, 32, 32) 的 RGB 三 通道 图 像 数 据 ， 
数据 类 型 是 无 符号 8 位 整形 (uint8) 


Y train 和 Y test 是 形 如 (nb samples,) 标签 数据 ， 标 签 的 范围 是 0~9 


CIFAR100 小 图 片 分 类 数据 库 


该 数据 库 具 有 50,000 个 32*32 的 彩色 图 片 作为 训练 集 ，10,000 个 图 片 作为 测试 集 。 
图 片 一 共有 100 个 类 别 ， 每 个 类 别 有 600 张 图 片 。 这 100 个 类 别 又 分 为 20 个 大 类 © 


使 用 方法 


from keras.datasets import cifar100 


(X train, y train), (X test, y test) = cifari00.1oad data(label. 
mode='fine' ) 


3 


参数 


e label mode : 为 fine' 或 “coarse' 之 一 ， 控 制 标签 的 精细 度 ，qfine' 获 得 的 标签 是 
100 个 小 类 的 标签 ，'"coarse 获得 的 标签 是 大 类 的 标签 


返回 值 


两 个 Tuple，(X_train，y_train)，(X_test，y_test) ， 其 中 
e X trainfeX test: 是 形 如 (nb samples, 3, 32, 32) 的 RGB 三 通道 图 像 数据 ， 
数据 类 型 是 无 符号 8 位 整形 (uint8) 


AE 


e y trainfey test : 是 形 如 (nb samples,) 标签 数据 ， 标 签 的 范围 是 0~9 


IMDB 影评 倾向 分 类 


本 数据 库 含有 来 自 IMDB 的 25,000 条 影评 ， 被 标记 为 正面 /负面 两 种 评价 。 影 评 已 被 
预 处 理 为 词 下 标 构成 的 序列 。 方 便 起 见 ， 单 词 的 下 标 基于 它 在 数据 集中 出 现 的 频率 
标定 ， 例 如 整数 3 所 编码 的 词 为 数据 集中 第 3 常 出 现 的 词 。 这 样 的 组 织 方法 使 得 用 户 
可 以 快速 完成 诸如 "只 考虑 最 常 出 现 的 10,000 个 词 ， 但 不 考虑 最 常 出 现 的 20 个 词 * 这 
样 的 操作 


按照 惯例 ，0 不 代表 任何 特定 的 词 ， 而 用 来 编码 任何 未 知 单词 


使 用 方法 


from keras.datasets import imdb 


(X_train, y_train), (X_test, y_test) = imdb.load_data(path="imdb 


pz 

nb wordszN 
one, 

skip top-o 
, 

maxlen=None 
, 

test split- 
0:1) 

seed=113, 

start_char= 
1, 

oov_char=2 
, 

index from- 
3) 


g————————————————————ásconmmmn E) 
参数 
e path : 如 果 你 在 本 机 上 已 有 此 数据 集 (位 
T '~/.keras/datasets/'tpath ) ， 则 载 入 。 否 则 数据 将 下 载 到 该 目录 下 


e nb words : 整数 或 None， 要 考虑 的 最 常见 的 单词 数 ， 序 列 中 任何 出 现 频率 更 
低 的 单词 将 会 被 编码 为 oov_char 的 值 。 


e skip top : 整数 ， 忽 略 最 常 出 现 的 若干 单词 ， 这 些 单 词 将 会 被 编码 
为 oov_char 的 值 


e maxlen : 整数 ， 最 大 序列 长 度 ， 任 何 长 度 大 于 此 值 的 序列 将 被 截断 
e seed: 整数 ， 用 于 数据 重 排 的 随机 数 种 子 


e start char : 字符 ， 序 列 的 起 始 将 以 该 字符 标记 ， 默 认为 1 因为 0 通常 用 作 
padding 


e oov char: 整数 ， 因 nb words X skip top 限制 而 cut 掉 的 单词 将 被 该 字符 
代替 


e index from : #2 » E Sc 8g 3 ds] (而 不 是 类 似 于 start char 的 特殊 占 位 符 ) 
将 从 这 个 下 标 开始 


返回 值 


两 个 Tuple，(X_train，y_train)，(X_test，y_test) ^ 其 中 


e X train 和 X test : 序列 的 列表 ， 每 个 序列 都 是 词 下 标的 列表 。 如 果 指 定 
了 nb words ， 则 序列 中 可 能 的 最 大 下 标 为 nb words-1 。 如 果 指 定 
了 maxlen ， 则 序列 的 最 大 可 能 长 度 为 maxlen 


e y_train 和 y test: 为 序列 的 标签 ， 是 一 个 二 值 list 


路 造 社 新 闻 主 题 分 类 


本 数据 库 包 含 来 自 路 透 社 的 11.228 条 新 闻 ， 分 为 了 46 个 主题 。 与 IMDB 库 一 样 ， 每 
条 新 闻 被 编码 为 一 个 词 下 标的 序列 。 


使 用 方法 


from keras.datasets import reuters 


(X_train, y_train), (X_test, y_test) = reuters.load_data(path="r 
euters.npz", 


nb_word 
s=None, 

skip_to 
=0 
ia maxlen= 
N 
i test sp 
1it=0.2 
i l seed=113 
l start_c 
har=1 
um oov cha 
Mi index f 
rom=3 ) 


参数 的 含义 与 IMDB 同名 参数 相同 ， 唯 一 多 的 参数 是 : 


~~ python 
word_index = reuters.get_word_index(path="reuters_word_index.jso 
n") 


上 面 代 码 的 返回 值 是 一 个 以 单词 为 关键 字 ， 以 其 下 标 为 值 的 字典 。 例 
如 ，word_ index['giraffe'] 的 值 可 能 为 1234 


参数 


2 


e path : 如 果 你 在 本 机 上 已 有 此 数据 集 (位 
T '~/.keras/datasets/'tpath ) ， 则 载 入 。 否 则 数据 将 下 载 到 该 目录 下 


MNIST + 5 Zt 8 3] 


本 数据 库 有 60,000 个 用 于 训练 的 28*28 的 灰 度 手写 数字 图 片 ，10,000 个 测试 图 片 
使 用 方法 


from keras.datasets import mnist 


(X_train, y_train), (X_test, y_test) = mnist.load_data() 


参数 


e path : 如 果 你 在 本 机 上 已 有 此 数据 集 (位 
T '~/.keras/datasets/'tpath ) >: WRA ° FUARA TFR AA RTF 


返回 值 


两 个 Tuple，(X_train，y_train)，(X_test，y_test) ， 其 中 


e X trainfeX test : 是 形 如 (nb samples, 28, 28) 的 灰 度 图 片 数 据 ， 数 据 类 型 
是 无 符号 8 位 整形 (uint8) 


e y trainfey test : 是 形 如 (nb samples,) 标签 数据 ， 标 签 的 范围 是 0~9 


数据 库 将 会 被 下 载 到 '~/ .keras/datasets/'+path 


Boston 房 屋 价格 回归 数据 集 
本 数据 集 由 StatLib 库 取得 ， 由 CMU 维 护 。 每 个 样本 都 是 1970Ss 晚 期 波士顿 郊区 的 不 


同位 置 ， 每 条 数据 含有 13 个 属性 ， 目 标 值 是 该 位 置 房子 的 房价 中 位 数 (F 
dollar) 。 


使 用 方法 


from keras.datasets import boston_housing 


(x train, y train), (x test, y test) = boston housing.load data( 


) 


ud 


参数 
e path : 数据 存放 位 置 ， 默 认 '~/ ,keras/datasets/'+path 
e seed : 随机 数 种 子 
e test split : 分 割 测试 集 的 比例 

返回 值 


两 个 Tuple, (X train, y train), (X test, y test) 


该 函数 将 画 出 模型 结构 图 ， 并 保存 成 图 片 : 
"python 


from keras.utils import plot model 
plot model(model, to file-'model.png') 


* "^^show shapes "^'^: 指定 是 否 显示 输出 数据 的 形状 ， 黑 认为" False 


e show layer names :指定 是 否 显 示 层 名 称 ,默认 为 True 


我 们 也 可 以 直接 获取 一 个 pydot .Graph 对 象 ， 然 后 按照 自己 的 需要 配置 它 ， 例 
如 ， 如 果 要 在 ipython 中 展示 图 片 


from IPython.display import SVG 
from keras.utils.visualize_util import model_to_dot 


SVG(model_to_dot(model).create(prog='dot', format='svg')) 


[Tips] R pydot-ng 和 graphviz， 若 出 现 错误 ， 用 命令 行 输入 pip install 
pydot-ng & brew install graphviz 


utils 工具 


本 模块 提供 了 一 系列 有 用 工具 


CustomObjectScope 
keras.utils.generic utils.CustomObjectScope() 


提供 定制 类 的 作用 域 ， 在 该 作用 域内 全 局 定制 类 和 月 els 但 在 作用 域 结束 后 将 
回 到 初始 状态 。 以 with 声明 开头 的 代码 将 能 够 通过 名 字 访 问 定制 类 的 实例 ， 在 

with 的 作用 范围 ， 这 些 定制 类 的 变动 将 一 直 持 续 ， a 束 后 ， 全 局 定制 

类 的 实例 将 回归 其 在 with 作用 域 前 的 状态 。 


with CustomObjectScope({"MyObject":MyObject}): 
layer = Dense(..., W_regularizer="MyObject") 


E save, load, etc. will recognize custom object by name 


HDF5Matrix 


keras.utils.io_utils.HDF5Matrix(datapath, dataset, start=0, end= 
None, normalizer=None) 


这 是 一 个 使 用 HDF5 数 据 集 代 替 Numpy 数 组 的 方法 
提供 start 和 end 参数 可 以 进行 切片 ， 另 外 ， 还 可 以 提供 一 个 正规 化 函数 或 匿 
名 函数 ， 该 函数 将 会 在 每 片 数据 检索 时 自动 调用 。 


x data = HDF5Matrix('input/file.hdf5', 'data') 
model.predict(x data) 


e datapath: 字符 串 ，HDF5 文 件 的 路 径 
e dataset: 字符 串 ， 在 datapath 路 径 下 HDF5 数 据 库 名 字 


e start: 整数 ， 想 要 的 数据 切片 起 点 
e end: 整数 ， 想 要 的 数据 切片 终点 
e normalizer: 在 每 个 切片 数据 检索 时 自动 调用 的 函数 对 象 


to_categorical 


to_categorical(y, num_classes=None) 


将 类 别 向 量 (从 0 到 nb_classes 的 整数 向 量 ) 映 射 为 二 值 类 别 矩 阵 , 用 于 应 用 到 
以 categorical crossentropy 为 目标 函数 的 模型 中 . 


参数 


e y: 类 别 向 量 
e num_classes: 总 共 类 别 数 


normalize 
normalize(x, axis=-1, order=2) 
对 numpy 数 组 规范 化 ， 返 回 规范 化 后 的 数组 


参数 


e x: 待 规范 化 的 数据 
e axis: 规范 化 的 轴 
e order : 规范 化 方法 ， 如 2 为 L2 范 数 


convert all kernels in model 


convert all kernels in model(model) 


将 模型 中 全 部 卷 积 核 在 Theano 和 TensorFlow 模 式 中 切换 


plot_model 


plot model(model, to_file='model.png', show shapes-False, show 1 
ayer names-True) 


绘制 模型 图 
custom_object_scope 


custom object scope() 


提供 定制 类 的 作用 域 ， 在 该 作用 域内 全 局 定制 类 能 够 被 更 改 ， 但 在 作用 域 结 束 后 将 
回 到 初始 状态 。 以 with 声明 开头 的 代码 将 能 够 通过 名 字 访 问 定制 类 的 实例 ， 在 
with 的 作用 范围 ， 这 些 定制 类 的 变动 将 一 直 持 续 ， 在 with 作 用 域 结束 后 ， 全 局 定制 
类 的 实例 将 回归 其 在 with 作用 域 前 的 状态 。 


本 函数 返回 CustomObjectScope 对 象 


with custom_object_scope({"MyObject":MyObject}): 
layer = Dense(..., W_regularizer="MyObject") 


# save, load, etc. will recognize custom object by name 


get_custom_objects 


get custom objects() 


检索 全 局 定制 类 ， 推 荐 利用 Custom_object_ scope 更 新 和 清理 定制 对 象 ， 
但 get custom objects 可 被 直接 用 于 访问 GLOBAL CUSTOM OBJECTS ° Ax 
数 返 回 从 名 称 到 类 别 映射 的 全 局 字典 


get_custom_objects().clear() 
get_custom_objects()["MyObject"] = MyObject 


serialize_keras_object 


serialize_keras_object(instance) 
将 keras 对 象 序列 化 
deserialize_keras_object 


eserialize_keras_object(identifier, module_objects=None, custom_ 
objects=None, printable_module_name='object' ) 


从 序列 中 恢复 keras 对 象 
get_file 


get file(fname, origin, untar-False, md5_hash=None, file_hash=No 
ne, cache subdir-'datasets', hash algorithm-'auto', extract-False 
, archive format-z'auto', cache dirzNone) 


pl-————————————————————————————————————BAu mj 


从 给 定 的 URL 中 下 载 文 件 , 可 以 传递 MD5 值 用 于 数据 校 验 (下 载 后 或 已 经 缓存 的 数据 
均 可 ) 


默认 情况 下 文件 会 被 下 载 到 -/.keras 中 的 cache subdir 文件 夹 ， 并 将 其 文件 
名 设 为 fname ， 因 此 例如 一 个 文件 example.txt 最 终 将 会 被 存放 在 
‘~/.keras/datasets/example.txt~ 


tar,tar.gz.tar.bz 和 Zip 格式 的 文件 可 以 被 提取 ， 提 供 哈 希 码 可 以 在 下 载 后 校 验 文件 。 
命令 喊 程序 shasum 和 sha256sum 可 以 计算 哈 希 值 。 


参数 


e fname: 文件 名 ， 如 果 指 定 了 绝对 路 径 /path/to/file.txt , 则 文件 将 会 保存 
到 该 位 置 。 


e origin: 文件 的 URL 地 址 
e untar: 布尔 值 ,是 否 要 进行 解压 
e md5 hash: MD5 哈 希 值 ,用 于 数据 校 验 ， 支 持 sha256 和 mds 哈 希 


e cache_subdir: 用 于 缓存 数据 的 文件 夹 ， 若 指定 绝对 路 
径 /path/to/folder 则 将 存放 在 该 路 径 下 。 


e hash algorithm: 选择 文件 校 验 的 哈 布 算法 ， 可 选项 有 'md5', 'sha256', 和 'auto'. 
默认 'auto' 自 动 检测 使 用 的 哈 希 算法 


e extract: 若 为 True 则 试图 提取 文件 ， 例 如 tar 或 zip tries extracting the file as an 
Archive, like tar or zip. 

e archive format: 试图 提取 的 文件 格式 ， 可 选 为 'auto' 'tar', 'zip', 和 None. 'tar' & 
括 tar, tar.gz, tar.bz 文 件 . 默认 'auto' 是 [tar, 'zip']. None 或 空 列 表 将 返回 没有 匹 
配 。 

e cache dir: 缓存 文件 存放 地 在 ， 参 考 FAQ 


返回 值 


下 载 后 的 文件 地 址 


Keras 是 一 个 模型 级 的 库 ， 提 供 了 快速 构建 深度 学 习 网 络 的 模块 。Keras 并 不 处 理 如 
张 量 乘 法 、 卷 积 等 底层 操作 。 这 些 操作 依赖 于 某 种 特定 的 、 优 化 良好 的 张 量 操作 
库 。Keras 依 赖 于 处 理 张 量 的 库 就 称 为 “后 端 引擎 "。Keras 提 供 了 两 种 后 端 引擎 
Theano/Tensorflow， 并 将 其 函数 统一 封装 ， 使 得 用 户 可 以 以 同一 个 接口 调用 不 同 
后 端 引 擎 的 函数 


e Theano 是 一 个 开源 的 符号 主义 张 量 操作 框架 ， 由 蒙特 利 尔 大 学 LISA/MILA 实 验 
室 开发 
e TensorFlow 是 一 个 符号 主义 的 张 量 操作 框架 ， 由 Google 开 发 


在 未 来 ， 我 们 有 可 能 要 添加 更 多 的 后 端 选 项 。 下 一 步 我 们 很 可 能 加 入 的 是 CNTK 后 


sw 
AA o 


注意 : Windows H P 7448 $Home 4A %USERPROFILE% 


如 果 你 至 少 运 行 过 一 次 Keras， 你 将 在 下 面 的 目录 下 找到 Keras 的 配置 文件 : 


如 果 该 目录 下 没有 该 文件 ， 你 可 以 手动 创建 一 个 


文件 的 默认 配置 如 下 : 


("image data format": "channels last", "epsilon": 1e-07, "floatx": "float32", 
"backend": "tensorflow" } 


>> backend’ 字段 的 值 改写 为 你 需要 使 用 的 后 端 :、、 人 theano` ^ X^ ^ ^ tensor 
flow```， 即 可 完成 后 端的 切换 


我 们 也 可 以 通过 定义 环境 变量 ```KERAS BACKEND ` 来 覆盖 上 面 配置 文件 中 定义 的 后 


9: 
`` python 


KERAS_BACKEND=tensorflow python -c "from keras import backend;" 
Using TensorFlow backend. 


keras.json 细节 


{ 
"image data format": "channels last", 
"epsilon": 1e-07, 
-foal ne "floabs2' 
"backend": "tensorflow" 
} 


你 可 以 更 改 以 上 -/.keras/keras.json 中 的 配置 


e iamge_data_format : 字符 串 ，"channels last" X"channels first" > À 3& 7fi 
指定 了 Keras 将 要 使 用 的 维度 顺序 ， 可 通 
过 keras.backend.image data format() 来 获取 当前 的 维度 顺序 。 对 2D 数 
据 来 说 ，"channels_last" 假 定 维度 顺序 为 (rows,cols,ichannels) 
而 "channels_first" 假 定 维度 顺序 为 (channels, rows, cols)。 对 3D 数 据 而 
言 ，"channels_last" 假 定 (conv_dim1, conv_dim2, conv_dim3, 
channels) ，"channels_first" 则 是 (channels, conv_dim1, conv_dim2, 
conv_dim3) 


e epsilon : F Až > 防止 除 0 错误 的 小 数字 


e floatx : ### > "float16", "float32", "float64" 之 一 ， 为 浮 点 数 精度 
e backend : 字符 串 ， 所 使 用 的 后 端 ， 为 "tensorflow" 或 "theano" 


使 用 抽象 的 Keras 后 端 来 编写 代码 


如 果 你 希望 你 编写 的 Keras 模 块 能 够 同 NS 两 个 后 端 上 使 用 ， 
你 可 以 通过 Keras 后 端 接口 来 编写 代码 ， 这 里 是 一 个 简介 : 


from keras import backend as K 


下 面 的 代码 实例 化 了 一 个 输入 占 位 符 ， 等 价 于 tf.placeholder() 
> T.matrix() * T.tensor3() 等 


input = K.placeholder(shape=(2, 4, 5)) 

# also works: 

input = K.placeholder(shape=(None, 4, 5)) 
# also works: 


input = K.placeholder (ndim=3 ) 


下 面 的 代码 实例 化 了 一 个 共享 变量 (shared) ， 等 价 于 tf.variable() 或 
theano.shared( ) 


val np.random.random((3, 4, 5)) 


var - K.variable(value-val) 


all-zeros variable: 
var = K.zeros(shape=(3, 4, 5)) 
# all-ones: 
var = K.ones(shape=(3, 4, 5)) 


大 多 数 你 需要 的 张 量 操作 都 可 以 通过 统一 的 Keras 后 端 接口 完成 ， 而 不 关心 具体 执 
行 这 些 操作 的 是 Theano 还 是 TensorFlow 

a=b+ c * K.abs(d) 

c = K.dot(a, K.transpose(b)) 

a = K.sum(b, axis=2) 

a = K.softmax(b) 

a = concatenate([b, c], axis=-1) 


backend( ) 
返回 当前 后 端 
epsilon 
epsilon() 
以 数值 形式 返回 一 个 (一般 来 说 很 小 的 ) 数 ， 用 以 防止 除 0 错 误 
set_epsilon 
set_epsilon(e) 


设置 在 数值 表达 式 中 使 用 的 fuzz factor， 用 于 防止 除 0 错误 ， 该 值 应 该 是 一 个 较 小 的 
浮 点 数 ， 示 例 : 


>>> from keras import backend as K 
>>> K.epsilon() 

1e-08 

>>> K.set epsilon(1e-05) 

>>> K.epsilon() 

1e-05 


floatx 


floatx() 


返回 默认 的 浮 点 数 数 据 类 型 ， 为 字符 串 ， 如 'floatt6', 'float32', 'float64' 
set_floatx(floatx) 


floatx() 


设置 默认 的 浮 点 数 数据 类 型 ， 为 字符 串 ， 如 "float16', 'float32', 'float64', z 4] : 


>>> from keras import backend as K 
>>> K.floatx() 

upon 

>>> K.set floatx('floati6') 

>>> K.floatx() 

'float16' 


cast to floatx 


cast to floatx(x) 


将 numpy array 转 换 为 默认 的 Keras floatx3& #! > xAnumpy array > 3& 1 4i ds 7] 
numpy array 但 其 数据 类 型 变 为 floatx。 示 例 : 


>>> from keras import backend as K 
>>> K.floatx() 

IOaES2 

>>> arr = numpy.array([1.0, 2.0], dtypez'float64') 
>>> arr.dtype 

dtype('float64') 

>>> new_arr = K.cast_to_floatx(arr) 
>>> new_arr 

array([ 1., 2.], dtype-float32) 
>>> new_arr.dtype 

dtype('float32') 


image_data_format 

image data format() 

返回 默认 的 图 像 的 维度 顺序 ("channels last X/channels first ) 
set_image_data_format 

set image data format(data format) 


Tee AAR EROR (ER) ,示例 : 


from keras import backend as K K.image data format() 
'channels first' K.set image data format('channels last) 





K.image data format() 'channels last' `` 


is keras tensor() 


is keras tensor(x) 


判断 x 是 否 是 keras tensor 对 象 的 谓词 函数 


>>> from keras import backend as K 

>>> np var = numpy.array([i, 2]) 

>>> K.is_keras_tensor(np_var ) 

False 

>>> keras var = K.variable(np var) 

>>> K.is keras tensor(keras var) # A variable is not a Tensor. 
False 

>>> keras placeholder = K.placeholder(shape=(2, 4, 5)) 

>>> K.is keras tensor(keras placeholder) # A placeholder is a T 
ensor. 

True 


get_uid 
get uid(prefix-'') 


获得 默认 计算 图 的 uid， 依 据 给 定 的 前 组 提供 一 个 唯一 的 UID， 参 数 为 表示 前 组 的 字 
符 串 ， 返 回 值 为 整数 


reset uids 


reset uids() 
重 置 图 的 标识 符 
Is keras tensor 


is keras tensor(x) 


判断 x 是 否 是 一 个 Keras tensor > 3& wl — 4- 7p RA » 示例 


>>> from keras import backend as K 

>>> np var = numpy.array([?3, 2]) 

>>> K.is keras tensor(np var) 

False 

>>> keras var = K.variable(np var) 

>>> K.is keras tensor(keras var) # A variable is not a Tensor. 
False 

>>> keras placeholder = K.placeholder(shape=(2, 4, 5)) 

>>> K.is_keras_tensor(keras_placeholder) # A placeholder 

ensor 


True 


clear_session 


clear_session() 
结束 当前 的 TF 计算 图 ， 并 新 建 一 个 。 有 效 的 避免 模型 / 层 的 混乱 
manual_variable_initialization 
manual_variable_initialization(value) 


指出 变量 应 该 以 其 默认 值 被 初始 化 还 是 由 用 户 手 动 初始 化 ， 参 数 value 为 布尔 值 ， 默 
认 False 代 表 变 量 由 其 默认 值 初始 化 


learning_phase 
learning phase() 


返回 训练 模式 /测试 模式 的 flag， 该 flag 是 一 个 用 以 传 入 Keras 模 型 的 标记 ， 以 决定 当 
前 模型 执行 于 训练 模式 下 还 是 测试 模式 下 


set_learning_phase 
set learning phase() 

设置 训练 模式 /测试 模式 0 或 1 

is sparse 
is_sparse(tensor) 


J| Bt — tensor Az — 4 4h KA tensor( th T ta 3 tensors) KA RE > MAE 
tensor 实 际 上 有 多 稀疏 )， 返 回 值 是 一 个 布尔 值 ， 示 例 : 


>>> from keras import backend as K 

>>> a = K.placeholder((2, 2), sparse=False) 
>>> print(K.is sparse(a)) 

False 

>>> b = K.placeholder((2, 2), sparse-True) 
>>> print(K.is sparse(b)) 

True 


to_dense 


to dense(tensor) 


TE — 4h tensorit — 4-75 fh Hi. i] tensor?t AE > KH: 


>>> from keras import backend as K 

>>> b = K.placeholder((2, 2), sparse=True) 
>>> print(K.is sparse(b)) 

True 

>>> c = K.to dense(b) 

>>> print(K.is sparse(c)) 

False 


variable 


variable(value, dtype='float32', name=None) 


实例 化 一 个 张 量 ， 返 回 之 


数 : 


e value : 用 来 初始 化 张 量 的 值 
e dtype : 张 量 数据 类 型 
e name: 张 量 的 名 字 (可 选 ) 


示例 : 


>>> from keras import backend as K 

>>> val = np.array([[1, 2], [3, 4]]) 

>>> kvar = K.variable(value=val, dtype='float64', name='example_ 
var') 

>>> K.dtype(kvar) 

'floate4' 

>>> print(kvar) 

example var 

>>> kvar.eval() 

array([[ 1., 2.], 


[ 3., 4.]]) 


placeholder 


placeholder(shape=None, ndim=None, dtype='float32', name=None) 


实例 化 一 个 占 位 符 ， 返 回 之 


参数 : 


N 


e shape: 5427+ shape (整数 tuple， 可 能 包含 None) 

e ndim: 占 位 符 张 量 的 阶 数 ， 要 初始 化 一 个 占 位 符 ， 至 少 指 
定 shape 和 ndim 之 一 ， 如 果 都 指定 则 使 用 shape 

e dtype: 占 位 符 数据 类 型 

e name: 占 位 符 名 称 (可 选 ) 


>>> from keras import backend as K 

>>> input_ph = K.placeholder(shape=(2, 4, 5)) 

>>> input_ph._keras_shape 

(245) 

>>> input_ph 

«tf.Tensor 'Placeholder 4:0' shape=(2, 4, 5) dtype=float32> 


shape 


shape(x) 


返回 一 个 张 量 的 符号 shape ， 符 号 shape 的 意思 是 返回 值 本 身 也 是 一 个 tensor， 示 
例 : 


>>> from keras import backend as K 

>>> tf session = K.get session() 

>>> val = np.array([[1, 2], [3, 4]]) 

>>> kvar = K.variable(value=val) 

>>> input = keras.backend.placeholder(shape=(2, 4, 5)) 

>>> K.shape(kvar) 

«tf.Tensor 'Shape 8:0' shape=(2,) dtype=int32> 

>>> K.shape(input) 

«tf.Tensor 'Shape 9:0' shapez(3,) dtype=int32> 

. To get integer shape (Instead, you can use K.int shape(x)) . 


>>> K.shape(kvar).eval(session-tf session) 
array([2, 2], dtype-int32) 

>>> K.shape(input).eval(session-tf session) 
array([2, 4, 5], dtype=int32) 


int shape 
int shape(x) 


以 整数 Tuple 或 None 的 形式 返回 张 量 shape， 示 例 : 


>>> from keras import backend as K 

>>> input = K.placeholder(shape=(2, 4, 5)) 
>>> K.int shape(input) 

(274s) 

>>> val = np.array([[1, 2], [3, 4]]) 

>>> kvar = K.variable(value=val) 

>>> K.int_shape(kvar ) 

(2189) 


ndim 
ndim(x) 


返回 张 量 的 阶 数 ， 为 整数 ， 示 例 : 


>>> from keras import backend as K 

>>> input = K.placeholder(shape=(2, 4, 5)) 
>>> val = np.array([[1, 2], [3, 4]]) 

>>> kvar = K.variable(value=val) 

>>> K.ndim( input ) 


>>> K.ndim(kvar) 


dtype 
dtype(x) 


返回 张 量 的 数据 类 型 ， 为 字符 串 ， 示 例 : 


>>> from keras import backend as K 

>>> K.dtype(K.placeholder (shape=(2,4,5))) 

-loa 

>>> K.dtype(K.placeholder(shapez(2,4,5), dtype='float32')) 
Float 

>>> K.dtype(K.placeholder(shape=(2,4,5), dtype='float64')) 
'float64' 

. Keras variable . 


>>> kvar = K.variable(np.array([[3?, 2], [3, 4]])) 

>>> K.dtype(kvar) 

“TloatsZareh. 

>>> kvar = K.variable(np.array([[1, 2], [3, 4]]), dtype='float32' 


) 
>>> K.dtype(kvar ) 
'float32 ref' 


OO 
eval 


eval(x) 


求 得 张 量 的 值 ， 返 回 一 个 Numpy array， 示 例 : 


>>> from keras import backend as K 
>>> kvar = K.variable(np.array([[1, 2], [3, 4]]), dtype='float32' 
) 


>>> K.eval(kvar) 
array([[ 1., 2.], 
[ 3., 4.]], dtype=float32) 


E O Bj 


zeros 


zeros(shape, dtype='float32', name=None) 


生成 一 个 全 0 张 量 ， 示 例 : 


>>> from keras import backend as K 
>>> kvar = K.zeros((3,4)) 
>>> K.eval(kvar ) 
array (IF O.; O.,. 0-, 07]; 
[0., 0., ©., 0.], 
[ 0., 0., 0., 0.]], dtype-float32) 


ones 


ones(shape, dtype='float32', name=None) 


生成 一 个 全 1 张 量 ， 示 例 


>>> from keras import backend as K 
>>> kvar = K.ones((3,4)) 
>>> K.eval(kvar ) 
ankay De 
[E1194 0617 E 
[ 1., 1 1., 1.]], dtype=float32) 


eye 


eye(size, dtype='float32', name=None) 


生成 一 个 单位 矩阵 ， 示 例 : 


>>> from keras import backend as K 
>>> kvar = K.eye(3) 
>>> K.eval(kvar ) 
arrayCil 425) 02) 0s 
[ 0., 1., O.], 
[ 0., 0., 1.]], dtype=float32) 


zeros like 


zeros like(x, namezNone) 


生成 与 另 一 个 张 量 X 的 shape 相 同 的 全 0 张 量 ， 示 例 : 


>>> from keras import backend as K 
>>> kvar = K.variable(np.random.random((2,3))) 
>>> kvar_zeros = K.zeros like(kvar) 
>>> K.eval(kvar_zeros) 
array (IR onon 0. ], 
[ 0., 0., 0.]], dtype=float32) 


ones like 


ones like(x, name=None) 


生成 与 另 一 个 张 量 shape 相 同 的 全 1 张 量 ， 示 例 : 


>>> from keras import backend as K 
>>> kvar = K.variable(np.random.random((2,3))) 
>>> kvar_ones = K.ones_like(kvar) 
>>> K.eval(kvar_ones) 
arravt dod ds 
[ 1., 1., 1.]], dtype=float32) 


random_uniform_variable 


random_uniform_variable(shape, low, high, dtype=None, name=None, 
seed=None) 


初始 化 一 个 Keras 变 量 ， 其 数值 为 从 一 个 均匀 分 布 中 采样 的 样本 ， 返 回 之 。 


参数 : 


shape : 张 量 shape 

low : 浮 点 数 ， 均 匀 分 布 之 下 界 
high : 浮 点 数 ， 均 匀 分 布 之 上 界 
dtype : 数据 类 型 

name : 张 量 名 

e seed : 随机 数 种 子 


示例 : 


>>> kvar = K.random_uniform_variable((2,3), 9, 1) 
>>> kvar 
«tensorflow.python.ops.variables.Variable object at 0x10ab40b102 
>>> K.eval(kvar) 
array([[ 0.10940075, 0.10047495, 0.476143 ], 
[ 0.66137183,  0.00869417, 0©.89220798]], dtype=float32) 


count params 


count params(x) 


返回 张 量 中 标量 的 个 数 ， 示 例 : 


>>> kvar = K.zeros((2,3)) 
>>> K.count params(kvar) 
6 
>>> K.eval(kvar) 
array (I O27) 0.) OF 
[ 0., 0., 0.]], dtype-float32) 


cast 
cast(x, dtype) 


改变 张 量 的 数据 类 型 ，dtype 只 能 是 floati6 , float32 或 float64 之 一 ， 示 
例 : 


>>> from keras import backend as K 

>>> input = K.placeholder((2, 3), dtype='float32' ) 

>>> input 

«tf.Tensor 'Placeholder 2:0' shape=(2, 3) dtype=float32> 
. It doesn't work in-place as below. _ 


>>> K.cast(input, dtype='floati6' ) 

«tf.Tensor 'Cast 1:0' shape=(2, 3) dtype=float16> 

>>> input 

«tf.Tensor 'Placeholder 2:0' shape=(2, 3) dtype=float32> 
. you need to assign it. . 

>>> input = K.cast(input, dtype-'floati6') 


>>> input 
«tf.Tensor 'Cast 2:0' shape=(2, 3) dtype=float1i6> 


### update 
"python 
update(x, new x) 


Anew x3 31x 
update add 
update add(x, increment) 
通过 将 x 增加 increment 更 新 x 
update sub 
update_sub(x, decrement) 


通过 将 x 减少 decrement 更 新 x 


moving average update 

moving average update(x, value, momentum) 
含义 暂 不 明确 
dot 

dot(x, y) 


求 两 个 张 量 的 乘积 。 当 试图 计算 两 个 N 阶 张 量 的 乘积 时 ， 与 Theano 行 为 相同 ， 
Ed (o ee, sp mp = (2, 42 =) Bae 


V 
V 
V 
ll 


K.placeholder(shape=(2, 3)) 
K.placeholder(shape=(3, 4)) 

>>> xy = K.dot(x, y) 

>>> xy 

«tf.Tensor 'MatMul 9:0' shape=(2, 4) dtype=float32> 


V 
V 
V 
ll 


V 
V 
V 
ll 


K.placeholder (shape=(32, 28, 3)) 
K.placeholder(shape=(3, 4)) 

>>> xy = K.dot(x, y) 

>>> xy 

«tf.Tensor 'MatMul 9:0' shape=(32, 28, 4) dtype=float32> 


V 
V 
V 
ll 


Theano-like 85 £7 73 zr 45] : 


>>> x = K.random uniform variable(shape-z(?, 3), low=0, high=1) 
>>> y = K.ones((4, 3, 5)) 

>>> xy = K.dot(x, y) 

>>> K.int_shape(xy) 

(2, 4, 5) 


batch_dot 


batch_dot(x, y, axes=None) 


据 。 即 它 的 数据 shape 形 如 (batch size,:) ° batch _ dot 将 产生 比 输入 张 量 维度 
低 的 张 量 ， 如 果 张 量 的 维度 被 减 至 1， 则 通过 expand dims 保证 其 维度 至 少 为 2 例 
如 ， 假 设 x = [[1，2],[3,4]] > y= [[5, 6],[7, 8]] ， 则 batch_dot(x, 
y, axes=1) = [[17, 53]] ° 8 x.dot(y.T) 的 主 对 角 元 素 ， 此 过 程 中 我 们 没有 
计算 过 反对 角 元 素 的 值 


参数 : 


e xy: 阶 数 大 于 等 于 2 的 张 量 ， 在 tensorflow 下 ， 只 支持 大 于 等 于 3 阶 的 张 量 
e axes: 目标 结果 的 维度 ， 为 整数 或 整数 列表 ， axes[0] 和 axes[1] 应 相同 


示例 : 假设 x=[[1,2],[3,4]] > y=[[5,6],[7,8]] ， 则 batch_dot(x, y, 
axes=1) A [[17, 53]] ， 恰 好 为 x.dot(y.T) 的 主 对 角 元 ， 整 个 过 程 没有 计算 
反对 角 元 的 元 素 。 


我 们 做 一 下 shape 的 推导 ， 假 设 x 是 一 个 shape 为 (100,20) 的 tensor ，y 是 一 个 shape 
为 (100,30,20) 的 tensor， 假 设 axes=(1,2) ， 则 输出 tensor 的 shape 通 过 循环 
x.shape 和 y.shape 确 定 : 


e x.shape[0] : 值 为 100， 加 入 到 输入 shape 里 

e x.shape[1] : 20， 不 加 入 输出 shape 里 ， 因 为 该 维度 的 值 会 被 求 和 
(dot_axes[0]=1) 

e y.shape[0] : 值 为 100， 不 加 入 到 输出 shape 里 ，y 的 第 一 维 总 是 被 忽略 

e y.shape[1] : 30， 加 入 到 输出 shape 里 

e y.shape[2] : 20， 不 加 到 output shape 里 ，y 的 第 二 个 维度 会 被 求 和 
(dot_axes[1]=2) 


e 结果 为 (100, 30) 


>>> x_batch = K.ones(shape=(32, 20, 1)) 

>>> y_batch = K.ones(shape=(32, 30, 20)) 

>>> xy batch dot = K.batch dot(x batch, y batch, axes=[1, 2]) 
>>> K.int shape(xy batch dot) 

(92, 1, 30) 


transpose 


transpose(x) 


张 量 转 置 ， 返 回转 置 后 的 tensor， 示 例 : 


>>> var = K.variable([[1, 2, 3], [4, 5, 6]]) 
>>> K.eval(var) 
arra de 2-3 
[ 4., 5., 6.]], dtype=float32) 
>>> var transposed = K.transpose(var) 
>>> K.eval(var transposed) 
array([[ 1., 4.], 
[eZee Sealy 
[ 3., 6.]], dtype=float32) 


>>> input = K.placeholder((2, 3)) 

>>> input 

«tf.Tensor 'Placeholder 11:0' shape=(2, 3) dtype=float32> 
>>> input_transposed = K.transpose(input) 

>>> input_transposed 

<tf.Tensor ‘transpose 4:0' shape=(3, 2) dtype=float32> 


gather 


gather(reference, indices) 


在 给 定 的 张 量 中 检索 给 定 下 标的 向 量 
参数 : 


e reference : 张 量 
e indices: 整数 张 量 ， 其 元 素 为 要 查询 的 下 标 


返回 值 : 一 个 与 reference 数据 类 型 相同 的 张 量 


max 


max(x, axis=None, keepdims=False) 
求 张 量 中 的 最 大 值 
min 

min(x, axis=None, keepdims=False) 
求 张 量 中 的 最 小 值 
sum 

sum(x, axis=None, keepdims=False) 
在 给 定 轴 上 计算 张 量 中 元 素 之 和 
prod 

prod(x, axis=None, keepdims=False) 
在 给 定 轴 上 计算 张 量 中 元 素 之 积 
cumsum 

cumsum(x, axis=0) 
在 给 定 轴 上 求 张 量 的 累积 和 
cumprod 


cumprod(x, axis=0) 


在 给 定 轴 上 求 张 量 的 累积 积 


var 


var(x, axis=None, keepdims-False) 


在 给 定 轴 上 计算 张 量 方差 


std 


std(x, axis=None, keepdims=False) 


在 给 定 轴 上 求 张 量 元 素 之 标准 差 


mean 


mean(x, axis=None, keepdims=False) 


在 给 定 轴 上 求 张 量 元 素 之 均值 


any 


any(x, axis=None, keepdims=False) 


按 位 或 ， 返 回 数据 类 型 为 uint8 的 张 量 (元 素 为 0 或 1 ) 


all 


any(x, axis=None, keepdims=False) 


按 位 与 ， 返 回 类 型 为 uint8de tensor 


argmax 
argmax(x, axis=-1) 
在 给 定 轴 上 求 张 量 之 最 大 元 素 下 标 
argmin 
argmin(x, axis=-1) 
在 给 定 轴 上 求 张 量 之 最 小 元 素 下 标 
square 
square(x) 
逐 元 素平 方 
abs 
abs(x) 


素 绝对 值 


A 


I 

sqrt 
sqrt(x) 
逐 元 素 开 方 


exp 


exp (x) 
逐 元 素 求 自然 指数 
log 
log(x) 
逐 元 素 求 自然 对 数 
logsumexp 
logsumexp(x, axis=None, keepdims=False) 


在 给 定 轴 上 计算 log(sum(exp()))， 该 函数 在 数值 稳定 性 上 超过 直接 计算 
log(sum(exp()))， 可 以 避免 由 exp 和 |og 导 致 的 上 溢 和 下 涪 


round 


round(x) 


逐 元 素 求 元 素 的 符号 (8130-1) 


pow 


pow(x, a) 
逐 元 素 求 x 的 a 次 方 
clip 
clip(x, min_value, max_value) 
逐 元 素 clip (将 超出 指定 范围 的 数 强制 变 为 边界 值 ) 
edqual 
equal(x, y) 
逐 元 素 判 相等 关系 ， 返 回 布尔 张 量 
not equal 
not equal(x, y) 
逐 元 素 判 不 等 关系 ， 返 回 布尔 张 量 
greater 
greater(x,y) 
逐 元 素 判 断 X>y 关 系 ， 返 回 布尔 张 量 
greater equal 


greater_equal(x,y) 


逐 元 素 判 断 x>=y 关 系 ， 返 回 布尔 张 量 
lesser 

lesser(x,y) 
逐 元 素 判 断 X<y 关 系 ， 返 回 布尔 张 量 
lesser equal 

lesser equal(x,y) 
逐 元 素 判 断 X<=y 关 系 ， 返 回 布尔 张 量 
maximum 

maximum(x, y) 
逐 元 素 取 两 个 张 量 的 最 大 值 
minimum 

minimum(x, y) 

逐 元 素 取 两 个 张 量 的 最 小 值 
sin 

sin(x) 


逐 元 素 求 正弦 值 


cos 
cos(x) 

逐 元 素 求 余弦 值 

normalize_batch_in_training 


normalize batch in training(x, gamma, beta, reduction axes, epsi 
lonz0.0001) 


对 一 个 batch 数 据 先 计算 其 均值 和 方差 ， 然 后 再 进行 batch_normalization 
batch_normalization 
batch normalization(x, mean, var, beta, gamma, epsilon=0.0001) 


xt — batch 49 448 3t £áTbatch normalization > TARA : output = (x- 
mean)/(sqrt(var)+epsilon)*gammatbeta 


concatenate 


concatenate(tensors, axis=-1) 
在 给 定 轴 上 将 一 个 列表 中 的 张 量 串联 为 一 个 张 量 specified axis 
reshape 

reshape(x, shape) 


1% sk & shape È 4& 7; 48 x shape 


permute_dimensions 


permute_dimensions(x, pattern) 


按照 给 定 的 模式 重 排 一 个 张 量 的 轴 


数 : 


e pattern: 代表 维度 下 标的 tuple 如 (0, 2, 1) 
resize_images 
resize_images(X, height_factor, width_factor, dim_ordering) 


依据 给 定 的 缩放 因子 ， 改 变 一 个 batch 图 片 的 shape， 参 数 中 的 两 个 因子 都 为 正 整 
数 ， 图 片 的 排列 顺序 与 维度 的 模式 相关 ， 如 th etf 


resize_volumes 


resize_volumes(X, depth_factor, height_factor, width_factor, dim 
_ordering) 


依据 给 定 的 缩放 因子 ， 改 变 一 个 5D 张 量 数 据 的 shape， 参 数 中 的 两 个 因子 都 为 正 整 


数 ， 图 片 的 排列 顺序 与 维度 的 模式 相关 ， 如 ‘th' 和 ‘tf 。5D 数 据 的 形式 是 batch， 
channels, depth, height, width 或 batch, depth, height, width, channels 


repeat_elements 
repeat_elements(x, rep, axis) 


在 给 定 轴 上 重复 张 量 元 素 rep 次 ， 与 np.repeat 类 似 。 例 如 ， 若 xshape (s1, 
s2, s3) 并 且 给 定 轴 为 axis=1`， 输 出 张 量 的 shape 为 ` (sli, s2 * rep, s3) 


repeat 
repeat(x, n) 


重复 2D 张 量 ， 例 如 若 xshape 是 (samples, dim) 且 n 为 2， 则 输出 张 量 的 shape 


是 (samples, 2, dim) 
arange 

arange(start, stop=None, step=1, dtype='int32') 
生成 1D 的 整数 序列 张 量 ， 该 函数 的 参数 与 Theano 的 arange 函 数 含义 相同 ， 如 果 只 
有 一 个 参数 被 提供 了 ， 那 么 它 实 际 上 就 是 stop 参数 的 值 
为 了 与 tensorflow 的 默认 保持 匹配 ， 函 数 返回 张 量 的 默认 数据 类 型 是 int32 
tile 

tile(x, n) 
将 X 在 各 个 维度 上 重复 n 次 ，X 为 张 量 ，n 为 与 X 维 度数 目 相同 的 列表 
batch_flatten 

batch_flatten(x) 
将 一 个 n 阶 张 量 转变 为 2 阶 张 量 ， 其 第 一 维度 保留 不 变 
expand dims 


expand dims(x, dim=-1) 


在 下 标 为 dim 的 轴 上 增加 一 维 
squeeze 
squeeze(x, axis) 
将 下 标 为 axis 的 一 维 从 张 量 中 移 除 
temporal_padding 
temporal_padding(x, padding=1) 
3D sk x Y H AIREA AG SHIH FL padding 个 0 值 
asymmetric_temporal_ padding 
asymmetric temporal padding(x, left pad-i, right pad-!) 
向 3D 张 量 中 间 的 那个 维度 的 一 端 卉 充 padding 个 0 值 
spatial 2d padding 
spatial 2d padding(x, padding=(i, 1), dim ordering-'th') 
向 4D 张 量 第 二 和 第 三 维度 的 左右 两 端 填充 padding[0] 和 padding[1] 个 0 值 
spatial 3d padding 
spatial 3d padding(x, padding=(i, 3, 1), dim ordering= th') 


95D35K X RJ& ^ HR Fe RANE LER 
% padding[0] ， padding[1] 和 padding[2] 个 0 值 


stack 

stack(x, axis=0) 
将 一 个 列表 中 维度 数目 为 R 的 张 量 堆 积 起 来 形成 维度 为 R+1 的 新 张 量 
one-hot 

one_hot(indices, nb_classes) 


输入 为 n 维 的 整数 张 量 ， 形 如 (batch_size, dim1, dim2, ... dim(n-1))， 输 出 为 (n+1) 维 
的 one-hot 编 码 ， 形 如 (batch_size, dim1, dim2, ... dim(n-1), nb classes) 


reverse 


reverse(x, axes) 
将 一 个 张 量 在 给 定 轴 上 反 转 
get_value 
get_value(x) 
以 Numpy array 的 形式 返回 张 量 的 值 
batch_get_value 
batch_get_value(x) 
以 Numpy array list 的 形式 返回 多 个 张 量 的 值 


set value 


set_value(x, value) 
从 numpy array 将 值 载 入 张 量 中 
batch_set_value 


batch_set_value(tuples) 


e tuples: ^| & » Xv $976 X76 (tensor, value) ° value 是 要 载 入 的 
Numpy array 数 据 


print tensor 

print tensor(x, message='' ) 
在 求 值 时 打印 张 量 的 信息 ， 并 返回 原 张 量 
function 

function(inputs, outputs, updates-[]) 


3: 45] 46 — ^-Keras $ žr 


A : 


e inputs: : 列表 ， 其 元 素 为 占 位 符 或 张 量变 量 
e outputs : 输出 张 量 的 列表 
e updates : 列表 ， 其 元 素 是 形 如 (old tensor, new tensor) 的 tuple. 


gradients 


gradients(loss, variables) 


i& Elloss & 4 X F variables 49 4 > variables > 3% E ESA 2| 


stop_gradient 


stop_gradient(variables) 


Returns variables but with zero gradient with respect to every other variables. 


rnn 


rnn(step function, inputs, initial states, go backwards-False, m 
ask=None, constants=None, unroll-False, input lengthzNone) 


在 张 量 的 时 间 维 上 迭代 


参数 : 


inputs : 形 如 (samples, time, ...) 的 时 域 信号 的 张 量 ， 阶 数 至 少 为 3 
step function : 每 个 时 间 步 要 执行 的 函数 其 参数 : 

o input: 形 如 (samples, ...) 的 张 量 ， 不 侈 时 间 维 ， 代 表 某 个 时 间 步 时 

一 个 batch 的 样本 

o states: 张 量 列表 其 返回 值 : 

o output : 形 如 (samples, ...) 的 张 量 

o new states : 张 量 列表 ， 与 'states' 的 长 度 相 同 
initial states : 形 如 (samples, ...) 的 张 量 ， 包 含 了 step function 状态 
的 初始 值 。 
go backwards : 布尔 值 ， 若 设 为 True， 则 逆向 迭代 序列 
mask: 形 如 (samples, time, 1) 的 二 值 张 量 ， 需 要 屏蔽 的 数据 元 素 上 值 为 
1 
constants : 按时 间 步 传递 给 函数 的 常数 列表 
unroll : 当 使 用 TensorFlow 时 ，RNN 总 是 展开 的 。 当 使 用 Theano 时 ， 设 置 该 值 
为 True 将 展开 递归 网 络 


e input_length : 使 用 TensorFlow 时 不 需要 此 值 ， 在 使 用 Theano 时 ， 如 果 要 展开 
递归 网 络 ， 必 须 指定 输入 序列 


返回 值 : 形 如 (last output, outputs, new states) 的 tuple 


e last_output : rnn 最 后 的 输出 ， 形 如 (samples, ...) 

e outputs : 形 如 (samples, time, ...) 的 张 量 ， 每 个 在 [sj 点 的 输出 对 应 于 
样本 s 在 t 时 间 的 输出 

e new states: 列表 ， 其 元 素 为 形 如 (samples, ...) 的 张 量 ， 代 表 每 个 样本 的 
最 后 一 个 状态 


switch 


switch(condition, then_expression, else_expression) 


依据 给 定 的 条 件 'condition” (整数 或 布尔 值 ) 在 两 个 表达 式 之 间 切 换 ， 注 意 两 个 表 
达 式 都 应 该 是 具有 同样 Shape 的 符号 化 张 量 表达 式 


参数 : 


e condition : 标量 张 量 

e then expression : TensorFlow 表 达 式 

e else_expression: TensorFlow 表 达 式 
in train phase 

in train phase(x, alt) 
如 果 处 于 训练 模式 ， 则 选择 x， 否 则 选择 alt， 注 意 alt 应 该 与 x 的 shape 相 同 
in test phase 


in test phase(x, alt) 


如 果 处 于 测试 模式 ， 则 选择 x， 否 则 选择 alt， 注 意 alt 应 该 与 x 的 shape 相 同 


relu 


relu(x, alpha=0.0, max_value=None) 


修正 线性 单元 
参数 : 


e alpha: 负 半 区 斜率 
e max value: 饱和 门限 


elu 
elu(x, alpha=1.0) 


指数 线性 单元 
参数 : 


e x: MAKE 
e alpha: 标量 


softmax 
softmax(x) 
返回 张 量 的 softmax 值 


softplus 


softplus(x) 


返回 张 量 的 softplus 值 


softsign 
softsign(x) 

返回 张 量 的 softsign 值 

categorical_crossentropy 
categorical_crossentropy(output, target, from_logits=False) 


计算 输出 张 量 和 目标 张 量 的 Categorical crossentropy (3&9 308) ， 目 标 张 量 与 
输出 张 量 必须 shape 相 同 


sparse_categorical_crossentropy 


sparse categorical crossentropy(output, target, from_logits=False 


) 
加 于 


binary_crossentropy 


binary_crossentropy(output, target, from logits=False) 
TEL fat h SK Fe A AK TKS AY 3E SUI 
sigmoid 


sigmoid(x) 


乏 元 素 计 算 sigmoid 值 
hard_sigmoid 
hard_sigmoid(x) 


该 函数 是 分 段 线性 近似 的 sigmoid， 计 算 速度 更 快 


tanh(x) 
乏 元 素 计 算 sigmoid 值 
dropout 
dropout(x, level, seed=None) 


随机 将 x 中 一 定 比例 的 值 设 置 为 0， 并 放 缩 整个 tensor 


数 : 

ex: KE 

e level : x 中 设置 成 0 的 元 素 比 例 
e seed : 随机 数 种 子 

I2 normalize 

12 normalize(x, axis) 


在 给 定 轴 上 对 张 量 进 行 L2 范 数 规范 化 


in top k 


in_top_k(predictions, targets, k) 


判断 目标 是 否 在 predictions 的 前 k 大 值 位 置 
参数 : 


e predictions : 预测 值 张 量 , shape 为 (batch_size, classes), 数据 类 型 float32 
e targets : 5443 €, shape 为 (batch_size,), 数 据 类 型 为 int32 或 int64 
e k: 整数 


conv1d 


convid(x, kernel, strides-1, border mode-'valid', image shape-zNo 
ne, filter shapezNone) 


1D &4& 
参数 : 


e kernel : 卷 积 核 张 量 
e strides: 步 长 ， 整 型 


e border mode : “same” > “valid" 之 一 的 字符 串 


conv2d 


conv2d(x, kernel, strides-(1, 1), border_mode='valid', dim order 
ing-'th', image shapezNone, filter shapezNone) 


2D 4 fs 
参数 : 
e kernel : 卷 积 核 张 量 
e strides: 步 长 ， 长 为 2 的 tuple 


e border mode : "same" > “valid”2— 8) 3-4 # 
e dim ordering : “tf 和 “th” 之 一 ， 维 度 排 列 顺序 


deconv2d 


deconv2d(x, kernel, output shape, strides=(i, 1), border mode-'v 
alid', dim ordering-'th', image shapezNone, filter shapezNone) 


2DA (H EAA) 
参数 : 


e x: MAKE 

e kernel : 卷 积 核 张 量 

e output_shape: 输出 shape 的 1D 的 整数 张 量 
e strides: 步 长 ，tuple 类 型 

e border mode : “same” 或 “valid” 

e dim ordering : "tf" “th” 


conv3d 


conv3d(x, kernel, strides-(1, 1, 1), border_mode='valid', dim or 
dering-'th', volume shapezNone, filter shapezNone) 


3D 卷 积 
参数 : 
o x: MARKS 
e kernel : 卷 积 核 张 量 
e strides : 步 长 ，tuple 类 型 
e border mode : “same” “valid” 
e dim ordering : "tf" "th" 


pool2d 


pool2d(x, pool size, strides-(1, 1), border mode-'valid', dim or 
dering-'th', pool mode-'max') 


2D 池 化 
参数 : 


e pool size : 含有 两 个 整数 的 tuple， 池 的 大 小 
e strides: 含有 两 个 整数 的 tuple， 步 长 

e border mode : “same” > “valid" 之 一 的 字符 串 
e dim ordering : “tf 和 “th” 之 一 ， 维 度 排 列 顺序 
e pool mode: “max”，“avg” 之 一 ， 池 化 方式 


pool3d 


pool3d(x, pool size, strides=(1, 1, 1), border_mode='valid', dim 
_ordering='th', pool mode-z'max') 

3D 池 化 

参数 : 


e pool size : 含有 3 个 整数 的 tuple， 池 的 大 小 
e strides : 含有 3 个 整数 的 tuple， 步 长 

e border mode : “same”，“valid" 之 一 的 字符 串 
e dim ordering : “tf 和 “th” 之 一 ， 维 度 排 列 顺序 
e pool mode: “max”，“avg” 之 一 ， 池 化 方式 


bias_add 

bias_add(x, bias, data_format=None) 
为 张 量 增加 一 个 偏 置 项 
random_normal 


random_normal(shape, mean=0.0, stddev=1.0, dtype=None, seed=None 


) 


返回 具有 正 态 分 布 值 的 张 量 ，mean 和 stddev 为 均值 和 标准 差 
random_uniform 


random_uniform(shape, minval=0.0, maxval=1.0, dtype=None, seed=N 
one) 


返回 具有 均匀 分 布 值 的 张 量 ，minval 和 maxval 是 均匀 分 布 的 下 上 界 
random_binomial 

random binomial(shape, p=0.0, dtype=None, seed=None) 
返回 具有 二 项 分 布 值 的 张 量 ，p 是 二 项 分 布 参 数 
truncated normall 


truncated_normal(shape, mean=0.0, stddev=1.0, dtype=None, seed=N 
one) 


返回 具有 截 尾 正 态 分 布 值 的 张 量 ， 在 距离 均值 两 个 标准 差 之 外 的 数据 将 会 被 截断 并 
重新 生成 


ctc label dense to sparse 

ctc label dense to sparse(labels, label lengths) 
dt cts SMA BY AFAR A ARCU XX 
ctc batch cost 


ctc batch cost(y true, y pred, input length, label length) 


在 batch 上 运行 CTC 损 失 算 法 
参数 : 


Je 


e y true : Æ Jd» (samples * max_tring_length)49 5& € > 62-4 25 84 i 4i 

e y pred : 形 如 (samples > time steps * num categories) 4 KE > CAAA 
输出 的 softmax 值 

e input length : 形 如 (samples，1) 的 张 量 ， 包 含 y_pred 中 每 个 batch 的 序列 长 


e label length : 形 如 (samples ，1) 的 张 量 ， 包 含 y_true 中 每 个 batch 的 序列 长 


返回 值 : 形 如 (samoles，1) 的 tensor， 包 含 了 每 个 元 素 的 CTC 损 失 
ctc_decode 


ctc_decode(y_pred, input_length, greedy=True, beam_width=None, d 
ict seq lenszNone, dict_values=None) 


使 用 贪 禁 算法 或 带 约束 的 字典 搜索 算法 解码 softmax 的 输出 
参数 : 
e y pred : Æ 4(samples > time steps > num categories)? k= > & 2 TR 9| 4& 3X, 
输出 的 softmax 值 
e input length : 形 如 (samples，1) 的 张 量 ， 包 含 y_pred 中 每 个 batch 的 序列 长 
e greedy : 设置 为 True 使 用 贪 禁 算法 ， 速 度 快 
e dict seq lens : dic_values 列 表 中 各 元 素 的 长 度 
e dict values : 列表 的 列表 ， 代 表 字 典 


返回 值 : 形 如 (samples，time_steps ，num_catgories) 的 张 量 ， 包 含 了 路 径 可 能 性 
(以 softmax 概 率 的 形式 ) 。 注 意 仍 然 需要 一 个 用 来 取出 argmax 和 处 理 空白 标签 的 
函数 


map_fn 
map_fn(fn, elems, name=None) 


元 素 elems 在 有 函数 fn 上 的 映射 ， 并 返回 结果 


A : 


e fn: AX 
e elems : 张 量 
e name: 节点 的 名 字 


返回 值 : 返回 一 个 张 量 ， 该 张 量 的 第 一 维度 等 于 elems， 第 二 维度 取决 于 fn 


foldl 


foldl(fn, elems, initializer=None, name=None) 


减少 elems， 用 fn 从 左 到 右 连 接 它们 
参数 : 


e fn :有 函数 ， 例 如 : lambda acc, x: acc + x 
e elems : k= 

e initializer : 初始 化 的 值 (elems[0]) 

e name: 节点 名 


返回 值 : 与 initializer 的 类 型 和 形状 一 致 


foldr 


foldr(fn, elems, initializer=None, name=None) 


减少 elems， 用 fn 从 右 到 左 连接 它们 
参数 : 


e fn : X > Fl% : lambda acc, x: acc + x 
e elems : 张 量 

e initializer : 初始 化 的 值 (elems[-1]) 

e name : 节点 名 


返回 值 : 与 jnitializer 的 类 型 和 形状 一 致 
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Scikit-Learn 接 口 包 装 器 


我 们 可 以 通过 包装 器 将 sequential 模型 ( 仅 有 一 个 输入 ) 作为 Scikit-Learn 工 作 


流 的 一 部 分 ， 相 关 的 包装 器 定义 在 keras.wrappers.scikit_learn.py 中 
目前 ， 有 两 个 包装 器 可 用 : 


keras.wrappers.scikit learn.KerasClassifier(build fnzNone, 
**sk params) 实现 了 sklearn 的 分 类 器 接口 


keras.wrappers.scikit learn.KerasRegressor(build fnzNone, 
**sk params) 实现 了 sklearn 的 回归 器 接口 


参数 


e build fn: 可 调用 的 函数 或 类 对 象 
e sk_params : 模型 参数 和 训练 参数 


build fn 应 构造 、 编 译 并 返回 一 个 Keras 模 型 ， 该 模型 将 稍 后 用 于 训练 / 测 
试 。 build fn 的 值 可 能 为 下 列 三 种 之 一 : 


1. 一 个 函数 
2. 一 个 具有 call 方法 的 类 对 象 


3. None， 代 表 你 的 类 继承 自 KerasClassifier 或 KerasRegressor ， 
其 call 方法 为 其 父 类 的 call 方法 
sk params 以 模型 参数 和 训练 ( 超 ) 参数 作为 参数 。 合 法 的 模型 参数 
为 build fn 的 参数 。 注 意 ，'build fn' 应 提供 其 参数 的 默认 值 。 所 以 我 们 不 传递 任 
何 值 给 sk params 也 可 以 创建 一 个 分 类 器 /回归 器 


sk_params 还 接受 用 于 调用 fit * predict ， predict proba 和 score 7 
法 的 参数 ， 如 nb epoch ， batch size 等 。 这 些 用 于 训练 或 预测 的 参数 按 如 下 
顺序 选择 : 


1. 传递 给 fit ， predict ， predict_proba 和 score 的 字典 参数 


2. 传递 个 sk_params 的 参数 


3. keras.models.Sequential * fit ， predict * predict proba 和 sc 
ore 的 默认 值 


当 使 用 scikit-learn 的 grid_search 接口 时 ， 合 法 的 可 转换 参数 是 你 可 以 传递 
给 sk params 的 和 参数， 包括 训 练 参数 。 即 ， 你 可 以 使 用 grid_search 来 搜索 最 
佳 的 batch_size 或 nb_epoch 以 及 其 他 模型 参数 


深度 学 习 与 Keras 


CNN 了 眼中 的 世界 


CNN T 的 世界 : 利用 Keras 解 释 CNN 的 滤波 


ans 


文 草 信息 NS 


本 文 地 址 : [http://blog.keras.io/how-convolutional-neural-networks-see-the- 
world.html](http://blog.keras.io/how-convolutional-neural-networks-see-the- 
world.html) 本 文 作者 : Francois Chollet 


使 用 Keras 探 索 卷 积 网 络 的 滤波 器 


本 文中 我 们 将 利用 Keras 观 察 CNN 到 底 在 学 些 什么 ， 它 是 如 何 理 解 我 们 送 入 的 训练 
图 片 的。 我 们 将 使 用 Keras 来 对 滤波 器 的 激活 值 进行 可 视 化 。 本 文 使 用 的 神经 网 络 
是 VGG-16， 数 据 集 为 ImageNet。 本 文 的 代码 可 以 在 [github] 
(https://github.com/fchollet/keras/blob/master/examples/conv_filter_visualization.py 
)</font> 4% 2 





VGG-16 又 称 为 OxfordNet， 是 由 牛津 视觉 几何 组 (Visual Geometry Group) 开发 
的 卷 积 神经 网 络 结构 。 该 网 络 赢得 了 ILSVR (ImageNet) 2014 的 冠军 。 时 至 今 
日 ，VGG 仍 然 被 认为 是 一 个 杰出 的 视觉 模型 一 一 尽管 它 的 性 能 实际 上 已 经 被 后 来 的 
Inception 和 ResNet 超 过 了 


Lorenzo Baraldi- Caffe fft A 练 好 的 VGG16 和 VGG19 模 型 转化 为 了 Keras 权 重文 
件 ， 所 以 我 们 可 以 简单 的 通过 载 入 权重 来 进行 实验 。 该 权重 文件 可 以 在 这 里 下 载 。 
国内 的 同学 需要 自 备 梯子 。 (这 里 是 一 个 网 盘 保 持 的 
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vgg16 : http://files.heuritech.com/weights/vgg16 weights.h5zt X FR » MATA 
的 不 知道 什么 时 候 就 挂 了 。) 


首先 ， 我 们 在 Keras 中 定义 VGG 网 络 的 结构 : 


from keras.models import Sequential 
from keras.layers import Convolution2D, ZeroPadding2D, MaxPoolin 
g2D 


img_width, img_height = 128, 128 


# build the VGG16 network 

model = Sequential() 

model.add(ZeroPadding2D((i, 1), batch input shape-(!, 3, img wid 
th, img height))) 

first layer = model.layers[-1i] 

4 this is a placeholder tensor that will contain our generated i 
mages 

input img - first layer.input 


4 build the rest of the network 

model.add(Convolution2D(64, 3, 3, activation='relu', name='conv1 
=) 

model.add(ZeroPadding2D((i, 1))) 

model.add(Convolution2D(64, 3, 3, activation='relu', name='conv1 
_2 )) 

model.add(MaxPooling2D((2, 2), strides=(2, 2))) 


model.add(ZeroPadding2D((1i, 1))) 

model.add(Convolution2D(128, 3, 3, activation='relu', name='conv 
2 41)) 

model.add(ZeroPadding2D((1, 1))) 

model.add(Convolution2D(128, 3, 3, activation-'relu', name='conv 
222201) 

model.add(MaxPooling2D((2, 2), strides=(2, 2))) 


model.add(ZeroPadding2D((1, 1))) 

model.add(Convolution2D(256, 3, 3, activation-'relu', name='conv 
3 1')) 

model.add(ZeroPadding2D((i, 1))) 


model.add(Convolution2D(256, 3, 3, activation='relu', name='conv 
SE 0) 

model.add(ZeroPadding2D((i, 1))) 

model.add(Convolution2D(256, 3, 3, activation-'relu', name='conv 
3 3')) 

model.add(MaxPooling2D((2, 2), strides=(2, 2))) 


model.add(ZeroPadding2D((i, 1))) 

model.add(Convolution2D(512, 3, 3, activation-'relu', name='conv 
4_1')) 

model.add(ZeroPadding2D((1, 1))) 

model.add(Convolution2D(512, 3, 3, activation='relu', name='conv 
cen 

model.add(ZeroPadding2D((i, 1))) 

model.add(Convolution2D(512, 3, 3, activation-'relu', name='conv 
4 3 )) 

model.add(MaxPooling2D((2, 2), strides=(2, 2))) 


model.add(ZeroPadding2D((1i, 1))) 

model.add(Convolution2D(512, 3, 3, activation-'relu', name='conv 
5 1')) 

model.add(ZeroPadding2D((1, 1))) 

model.add(Convolution2D(512, 3, 3, activation='relu', name='conv 
5 2')) 

model.add(ZeroPadding2D((1, 1))) 

model.add(Convolution2D(512, 3, 3, activation-'relu', name='conv 
5_3')) 

model.add(MaxPooling2D((2, 2), strides=(2, 2))) 


# get the symbolic outputs of each "key" layer (we gave them uni 
que names). 
layer_dict = dict([(layer.name, layer) for layer in model.layers 


]) 


注意 我 们 不 需要 全 连接 层 ， 所 以 网 络 就 定义 到 最 后 一 个 卷 积 层 为 止 。 使 用 全 连接 层 
会 将 输入 大 小 限制 为 224x224， 即 ImageNet 原 图 片 的 大 小 。 这 是 因为 如 果 输 入 的 图 
片 大 小 不 是 224x224， 在 从 卷 积 过 度 到 全 链接 时 向 量 的 长 度 与 模型 指定 的 长 度 不 相 
符 。 


下 面 ， 我 们 将 预 训 练 好 的 权重 载 入 模型 ， 一 般 而 言 我 们 可 以 通 
过 model.load weights() 载 入 ， 但 这 里 我 们 只 载 入 一 部 分 参数 ， 如 果 使 用 该 方 
法 的 话 ， 模 型 和 参数 形式 就 不 匹配 了 。 所 以 我 们 需要 手工 载 入 : 


import h5py 
weights path = 'vggi16 weights.h5' 


f = h5py.File(weights path) 
for k in range(f.attrs['nb layers']): 
if k »- len(model.layers): 
4 we don't look at the last (fully-connected) layers in 
the savefile 
break 
g = f['layer (j'.format(k)] 
weights = [g['param_{}'.format(p)] for p in range(g.attrs['n 
b params'])] 
model.layers[k].set weights(weights) 
f.close() 
print('Model loaded.') 


下 面 ， 我 们 要 定义 一 个 损失 函数 ， 这 个 损失 有 函数 将 用 于 最 大 化 某 个 指定 滤波 器 的 激 
活 值 。 以 该 函数 为 优化 目标 优化 后 ， 我 们 可 以 真正 看 一 下 使 得 这 个 滤波 器 激活 的 完 
竞 是 些 什么 东西 。 

现在 我 们 使 用 Keras 的 后 端 来 完成 这 个 损失 函数 ， 这 样 这 份 代 码 不 用 修改 就 可 以 在 
TensorFlow 和 Theano 之 间 切 换 了 。TensorFlow 在 CPU 上 进行 卷 积 要 块 的 多 ， 而 目 
前 为 止 Theano 在 GPU 上 进行 卷 积 要 快 一 些 。 


from keras import backend as K 


layer name = 'conv5_1' 
filter index = 0 £ can be any integer from 0 to 511, as there a 
re 512 filters in that layer 


4 build a loss function that maximizes the activation 
4 of the nth filter of the layer considered 

layer output - layer dict[layer name].output 

loss - K.mean(layer output[:, filter index, :, :]) 


4 compute the gradient of the input picture wrt this loss 
grads - K.gradients(loss, input img)[9] 


# normalization trick: we normalize the gradient 
grads /= (K.sqrt(K.mean(K.square(grads))) + 1e-5) 


# this function returns the loss and grads given the input pictu 
re 
iterate - K.function([input img], [loss, grads]) 


注意 这 里 有 个 小 trick， 计 算出 来 的 梯度 进行 了 正规 化 ， 使 得 梯度 不 会 过 小 或 过 大 。 
这 种 正规 化 能 够 使 梯度 上 升 的 过 程 平滑 进行 。 
ee) 


根据 刚刚 定义 的 函数 ， 现 在 可 以 对 某 个 滤波 器 的 激活 值 进行 梯度 上 升 。 
import numpy as np 


# we start from a gray image with some noise 
input img data = np.random.random((i, 3, img width, img height) ) 
50205 c 129: 
4 run gradient ascent for 20 steps 
for i in range(20): 
loss value, grads value - iterate([input img data]) 
input img data += grads value * step 


使 用 TensorFlow 时 ， 这 个 操作 大 概 只 要 几 秒 。 


然后 我 们 可 以 提取 出 结果 ， 并 可 视 化 : 


CNN 了 眼中 的 世界 


from scipy.misc import imsave 


# util function to convert a tensor into a valid image 
def deprocess_image(x): 
# normalize tensor: center on ©., ensure std is 0.1 


X -= x.mean() 
x /= (x.std() + 1e-5) 
xo sco d 


# clip to [0, 1] 
+= 0.5 
x - np.clip(x, 0, 1) 


X 


# convert to RGB array 

x *= 255 

X = x.transpose((1, 2, 0)) 

X = np.clip(x, 0, 255).astype('uint8') 
return x 


img = input img data[9] 


img - deprocess image(img) 
imsave('%s_filter_%d.png' % (layer name, filter index), img) 


这 里 是 第 5 卷 基 层 第 0 个 滤波 器 的 结果 : 
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可 视 化 所 有 的 滤波 器 
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下 面 我 们 系统 的 可 视 化 一 下 各 个 层 的 各 个 滤波 器 结果 ， 看 看 CNN 是 如 何 对 输入 进行 
A op AR AY o 

第 一 层 的 滤波 器 主要 完成 方向 、 顾 色 的 编码 ， 这 些 磊 色 和 方向 与 基本 的 纹理 组 合 ， 
逐渐 生成 复杂 的 形状 。 

可 以 将 每 层 的 滤波 器 想 为 基 向 量 ， 这 些 基 向 量 一 般 是 过 完备 的 。 基 向 量 可 以 将 层 的 
输入 紧凑 的 编码 出 来 。 滤 波 器 随 着 其 利用 的 空域 信息 的 拓宽 而 更 加 精细 和 复杂 ， 
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conv2 1:a few of the 128 filters 


conv1 1:a few of the 64 filters 

conv3 1:a few of the 256 filters 
conv4_1:a few of the 512 filters 
conv5_1:a few of the 512 filters 





可 以 观察 到 ， 很 多 滤波 器 的 内 容 其 domi ， 只 不 过 旋转 了 一 个 随机 的 的 角度 
(如 90 度 ) 而 而 已 。 这 意味 着 我 们 可 以 通过 使 得 卷 积 滤波 器 具有 旋转 不 变性 而 显著 减 
少 滤波 器 的 数目 ， 这 是 一 个 有 趣 的 研究 方向 。 


令 人 震惊 的 是 ， 这 种 旋转 的 性 质 在 高 层 的 滤波 器 中 仍然 可 以 被 观察 到 。 如 Conv4 1 


Deep Dream (nightmare ) 


另 一 个 有 趣 的 事 儿 是 ， 如 果 我 们 把 刚才 的 随机 骂 声 图 片 蔡 换 为 有 意义 的 照片 ， 结 果 
就 变 的 更 好 玩 了 。 这 就 是 去 年 由 Google 提 出 的 Deep Dream 。 通 过 选择 特定 的 滤波 

器 组 合 ， 我 们 可 以 获得 一 些 很 有 意思 的 结果 。 如 果 你 对 此 感 兴 趣 ， 可 以 参考 Keras 
的 例子 Deep Dream 和 Google 的 博客 Google blog post (4% ) 





如 果 我 们 添加 上 VGG 的 全 连接 层 ， 然 后 试图 最 大 化 茶 个 指定 类 别 的 激活 值 呢 ?你 会 
得 到 一 张 很 像 该 类 别 的 图 片 吗 ? 让 我 们 试 试 。 
种 情况 下 和 载 们 的 损失 函数 长 这 样 : 


layer output = model.layers[-1].get_output( ) 
loss = K.mean(layer_output[:, output_index] ) 


CNN 了 眼中 的 世界 


比方 说 我 们 来 最 大 化 输出 下 标 为 65 的 那个 类 ， 在 ImageNet 里 ， 这 个 类 是 蛇 。 很 
快 ， 我 们 的 损失 达到 了 0.999， 即 神经 网 络 有 99.9% 的 概率 认为 我 们 生成 的 图 片 是 一 
条 海蛇 ， 它 长 这 样 : 


“| am 99.99% certain this is a magpie’ said 
the machine. 





OK ， 我 们 的 网 络 认为 是 喜鹊 的 东西 看 起 来 完全 不 是 喜鹊 ， 往 好 了 说 ， 这 个 图 里 跟 
喜鹊 相似 的 ， 也 不 过 就 是 一 些 局 部 的 纹理 ， 如 羽毛 ， 嘴 巴 之 类 的 。 那 么 ， 这 就 意味 
着 卷 积 神经 网 络 是 个 很 差 的 工具 吗 ? 当然 不 是 ， 我 们 按照 一 个 特定 任务 来 训练 它 ， 
它 就 会 在 那个 任务 上 表现 的 不 错 。 但 我 们 不 能 有 网 络 “ 理 解 " 某 个 概念 的 错觉 。 我 们 
不 能 将 网 络 人 格 化 ， 它 只 是 工具 而 已 。 比 如 一 条 狗 ， 它 能 识别 其 为 狗 只 是 因为 它 能 
以 很 高 的 概率 将 其 正确 分 类 而 已 ， 而 不 代表 它 理解 关于 "“ 狗 ”的 任何 外 延 。 


革命 尚未 成 功 ， 同 志 仍 需 努力 


所 以 ， 神 经 网 络 到 底 理 解 了 什么 呢 ? 我 认为 有 两 件 事 是 它们 理解 的 。 
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网 络 理解 了 从 一 系列 滤波 器 的 组 合 到 一 系列 特定 标签 的 概率 映射 。 神 经 网 络 学 习 到 
的 东西 完全 达 不 到 人 类 的 “和 看见” 的 意义 ， 从 科学 的 的 角度 讲 ， 这 当然 也 不 意味 着 我 
们 已 经 解决 了 计算 机 视觉 的 问题 。 想 得 别 太 多 ， 我 们 才刚 刚 踩 上 计算 机 视觉 天 梯 的 
第 一 步 。 


有 些 人 说 ， 卷 积 神经 网 络 学 习 到 的 对 输入 空间 的 分 层次 解 耦 模拟 了 人 类 视觉 皮层 的 
行为 。 这 种 说 法 可 能 对 也 可 能 不 对 ， 但 目前 未 知 我 们 还 没有 比较 强 的 证 据 来 承认 或 
否认 它 。 当 然 ， 有 些 人 可 以 期 望 人 类 的 视觉 皮层 就 是 以 类 似 的 方式 学 东西 的 ， 茶 种 
程度 上 讲 ， 这 是 对 我 们 视觉 世界 的 自然 解 契 (就 像 侍 里 叶 变 换 是 对 周期 声音 信号 的 
一 种 解 耦 一 样 自然 ) 【译注 : 这 里 是 说 ， 就 像 声音 信号 的 傅 里 叶 变 换 表 达 了 不 同 频 
浴 的 声音 信号 这 种 很 自然 很 物理 的 理解 一 样 ， 我 们 可 能 会 认为 我 们 对 视觉 信息 的 识 
是 分 层 来 完成 的 ， 圆 的 是 轮 予 ， 有 四 个 轮 予 的 是 汽车 ， 造 型 炫 酷 的 汽车 是 跑 

， 像 这 样 】。 但 是 ， 人 类 对 视觉 信号 的 滤波 、 分 层次 、 处 理 的 本 质 很 可 能 和 我 们 
网 络 完全 不 是 一 回 事 。 视 觉 皮 层 不 是 卷 积 的 ， 尽 管 它 们 也 分 层 ， 但 那些 
层 具 有 皮质 列 的 结构 ， 而 这 些 结构 的 丨 正 目的 目前 还 不 得 而 知 ， 这 种 结构 在 我 们 的 
人 工 神经 网 络 中 还 没有 出 现 (UE f A ir Geoff Hinton 正 在 在 这 个 方面 努力 ) 。 此 
外 ， 人 类 有 比 给 静态 图 像 分 类 的 感知 器 多 得 多 的 视觉 感知 器 nie 连续 而 
主动 的 ， 不 是 静态 而 被 动 的 ， 这 些 感受 器 还 被 如 眼 动 等 多 种 机 制 复 杂 控 于 


下 次 有 风 投 或 某 知 名 CEO 人 警告 你 要 警惕 我 们 深度 学 习 的 威胁 时 ， 想 想 上 面 说 的 吧 。 
今天 我 们 是 有 更 好 的 工具 来 处 理 复杂 的 信息 了 ， 这 很 酷 ， 但 归根 双 
具 ， 而 不 是 生物 。 它 们 做 的 任何 工作 在 哪个 宇宙 的 标准 下 都 不 够 格 称 之 为 “ 思 
在 一 个 石头 上 画 一 个 笑脸 并 不 会 使 石头 变 得 “开心 "， 尽 管 你 的 灵长目 皮质 会 告诉 你 
它 很 开心 。 


总 而 言 之 ， 卷 积 神经 网 络 的 可 视 化 工作 是 很 让 人 着 迷 的 ， 谁 能 想到 仅仅 通过 简单 的 
neo KBR > Jo ERII BABE > SES F Bl SEARCH REEL AR AL 

言 息 的 如 此 漂亮 的 分 层 模 型 呢 。 深 度 学 习 或 许 在 实际 的 意义 上 并 不 智能 ， 但 它 仍 
pese | 几 年 前 任何 人 都 无 法 达到 的 效果 。 现 在 ， 如 果 我 们 能 理解 为 什么 深度 
习 如 此 有 效 ， 那 ...... 嘿 嘿 :) 
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目 动 编码 器 : 各 种 各 样 的 目 动 编码 器 


文章 信息 AS 


本 文 地 址 : [http://blog.keras.io/building-autoencoders-in-keras.html] 
(http://blog.keras.io/building-autoencoders-in-keras.html) 本 文 作者 : Francois 


Chollet 


什么 是 自动 编码 器 (Autoencoder ) 


Fr. Encoder g- Decoder 


Original d 
input Reconstructe 
input 
Compressed 
representation 


自动 编码 器 是 一 种 数据 的 压缩 算法 ， 其 中 数据 的 压缩 和 解压 缩 函 数 是 1) 数据 相关 
的 ,2) 有 损 的 ，3) 从 样本 中 自动 学 习 的 。 在 大 部 分 提 到 自动 编码 器 的 场合 ， 压 缩 和 
解压 缩 的 函数 是 通过 神经 网 络 实现 的 。 

1) 自动 编码 器 是 数据 相关 的 (data-specific 或 data-dependent) ， 这 意味 着 自动 
编码 器 只 能 压缩 那些 与 训练 数据 类 似 的 数据 。 自 编码 器 与 一 般 的 压缩 算法 ， 如 
MPEG-2，MP3 等 压缩 算法 不 同 ， 一 般 的 通用 算法 只 假设 了 数据 是 图像" 或 “声音 ”， 
而 没有 指定 是 哪 种 图 像 或 声音 。 比 如 ， 使 用 人 脸 训 练 出 来 的 自动 编码 器 在 压缩 别 的 
图 片 ， 比 如 树木 时 性 能 很 差 ， 因 为 它 学 习 到 的 特征 是 与 人 脸 相 关 的 。 


2) 自动 编码 器 是 有 损 的 ， 意 思 是 解压 缩 的 输出 与 原来 的 输入 相 比 是 退化 的 ， 
MP3，JPEG 等 压缩 算法 也 是 如 此 。 这 与 无 损 压 缩 算 法 不 同 。 


3) 自动 编码 器 是 从 数据 样本 中 自动 学 习 的 ， 这 意味 着 很 容易 对 指定 类 的 输入 训练 
出 一 种 特定 的 编码 器 ， 而 不 需要 完成 任何 新 工作 。 


搭建 一 个 自动 编码 器 需要 完成 下 面 三 样 工作 : 搭建 编码 器 ， 搭 建 解码 器 ， 设 定 一 个 
损失 函数 ， 用 以 衡量 由 于 压缩 而 损失 掉 的 信息 。 编 码 器 和 解码 器 一 般 都 是 参数 化 的 
dad ， 并 关于 损失 函数 可 导 ， 典 型 情况 是 使 用 神经 网 络 。 编 码 器 和 解码 器 的 参数 可 
以 通过 最 小 化 损失 函数 而 优化 ， 例 如 SGD 。 


自 编 码 器 是 一 个 好 的 数据 压缩 算法 吗 


第 情况 下 ， 使 用 自 编码 器 做 数据 压缩 ， 性 能 并 不 怎 。 以 图 片 压缩 为 例 ， 想 要 
ee， 相 提 并 论 的 自 编码 器 非常 B er 这 个 性 能 ， 你 
还 必须 要 把 图 片 的 类 型 限定 在 很 小 的 一 个 范围 内 (例如 JPEG 不 怎么 行 的 茶 类 图 
A) 。 自 编码 器 依赖 于 数据 的 特性 使 得 它 在 面 对 昌 实 数据 的 压缩 上 并 不 可 行 ， 你 只 
能 在 指定 类 型 的 数据 上 获得 还 可 以 的 效果 ， 但 谁 知道 未 来 会 有 哈 新 需求 ? 


那么 ， 目 编码 器 擅长 做 什么 ? 


自 编码 器 在 实际 应 用 中 用 的 很 少 ，2012 年 人 们 发 现在 卷 积 神 经 网 络 中 使 用 自 编码 器 
做 逐 层 预 训练 可 以 训练 深度 网 络 ， 但 很 快 人 们 发 现 良 好 的 初始 化 策略 在 训练 深度 网 
络 上 要 比 费 劲 的 逐 层 预 训练 有 效 得 多 ，2014 年 出 现 的 Batch Normalization 技 术 使 得 
更 深 的 网 络 也 可 以 被 有 效 训 练 ， 到 了 2015 年 底 ， 通 过 使 用 残 差 学 习 (ResNet) 我 
们 基本 上 可 以 训练 任意 深度 的 神经 网 络 。 


目前 自 编码 器 的 应 用 主要 有 两 个 方面 ， 第 一 是 数据 去 品 二 是 为 进行 可 视 化 而 降 
维 。 配 合适 当 的 维度 和 稀 鸣 约束 ， 自 编码 器 Oe et 
据 投 影 。 


对 于 2D 的 数据 可 视 化 ，t-SNE ( 读 作 tee-snee) 或 许 是 目前 最 好 的 算法 ， 但 通常 还 
是 需要 原 数据 的 维度 相对 低 一 些 。 所 以 ， 可 视 化 高 维 数据 的 一 个 好 办 法 是 首先 使 用 
自 编 码 器 将 维度 降低 到 较 低 的 水 平 (如 32 维 ) ， 然 后 再 使 用 -SNE 将 其 投影 在 2D 平 
面 上 。Keras 版 本 的 t-SNE 由 Kyle McDonald 实 现 了 一 下 ， 放 在 了 这 里 .ijpynb)， 另 
外 scikit-learn 也 有 一 个 简单 实用 的 实现 。 


自 编 码 器 有 什么 卵 用 


自 编码 器 的 出 名 来 自 于 网 上 很 多 机 器 学 习 果 程 的 介绍 ， 总 而 言 之 ， 一 堆 新 手 非常 热 
爱 自 编 码 器 而 且 怎么 也 玩 不 够 ， 这 就 是 这 篇 文章 出 现 的 意义 【告诉 你 自 编码 器 有 什 
AIA] o 


自 编码 器 吸引 了 一 大 批 研究 和 关注 的 主要 原因 之 一 是 很 长 时 间 一 段 以 来 它 被 认为 是 
解决 无 监督 学 习 的 可 能 方案 ， 即 大 家 觉得 自 编码 器 可 以 在 没有 标签 的 时 候 学 习 到 数 
据 的 有 用 表达 。 再 说 一 次 ， 自 编码 器 并 不 是 一 个 丨 正 的 无 监督 学 习 的 算法 ， 而 是 一 
个 自 监督 的 算法 。 自 监督 学 习 是 监督 学 习 的 一 个 实例 ， 其 标签 产生 自 输入 数据 。 要 
获得 一 个 自 监督 的 模型 ， 你 需要 想 出 一 个 车 谱 的 目标 跟 一 个 损失 元 数 ， 问 题 来 了 ， 
仅仅 把 目标 设 定 为 重 构 输入 可 能 不 是 正确 的 选项 。 基 本 上 ， 要 求 模型 在 像素 级 上 精 
确 重 构 输 入 不 是 机 器 学 习 的 兴趣 所 在 ， 学 习 到 高 级 的 抽象 特征 才 是 。 事 实 上 ， 当 你 
的 主要 任务 是 分 类 、 定 位 之 类 的 任务 时 ， 那 些 对 这 类 任务 而 言 的 最 好 的 特征 基本 上 
都 是 重 构 输入 时 的 最 差 的 那 种 特征 。 


在 应 用 自 监督 学 习 的 视觉 问题 中 ， 可 能 应 用 自 编码 器 的 领域 有 例如 拼图 ， 细 节 纹 理 
匹配 (AK ee Vo he > HFA ep ER) 。 下 面 这 篇 文章 研究 了 拼 
图 问题 ， 其 实 很 有 意思 ， 不 妨 一 读 。Unsupervised Learning of Visual 

Representations by Solving Jigsaw Puzzles.。 此 类 问题 的 模型 obs 些 内 置 的 假 
设 ， 例 如 “视觉 块 比 像素 级 的 细节 更 重要 "这样 的 ， 这 种 假设 是 普通 的 自 编码 器 没有 


的 。 
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Fig.1: What image representations do we learn by solving puzzles? Left: The 
image from which the tiles (marked with green lines) are extracted. Middle: A 
puzzle obtained by shuffling the tiles. Some tiles might be directly identifiable 
as object parts, but their identification is much more reliable once the correct 
ordering is found and the global figure emerges (Right). 


Figure from Noroozi and Favaro (2016) 







使 用 Keras 建 立 简单 的 自 编 码 器 


首先 ， 先 建立 一 个 全 连接 的 编码 器 和 解码 器 


E: 


from keras.layers import Input, Dense 
from keras.models import Model 


# this is the size of our encoded representations 
encoding dim = 32 # 32 floats -> compression of factor 24.5, as 
suming the input is 784 floats 


# this is our input placeholder 

input img = Input(shape=(784, )) 

# "encoded" is the encoded representation of the input 
encoded = Dense(encoding dim, activation-'relu')(input img) 
4 "decoded" is the lossy reconstruction of the input 
decoded - Dense(784, activation-'sigmoid')(encoded) 


4 this model maps an input to its reconstruction 
autoencoder = Model(input-input img, output-decoded) 


当然 我 们 可 以 单独 的 使 用 编码 器 和 解码 器 : 


# this model maps an input to its encoded representation 
encoder = Model(input-input img, output-encoded) 


4 create a placeholder for an encoded (32-dimensional) input 
encoded input = Input(shape-(encoding dim, ) ) 

4 retrieve the last layer of the autoencoder model 

decoder layer = autoencoder.layers[-1i] 

4 create the decoder model 

decoder = Model(input-zencoded input, output-decoder layer(encode 
d input)) 
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失 有 函数 ， 优 化 器 为 adam 


autoencoder.compile(optimizer-'adadelta', loss='binary_crossentr 
opy') 


然后 准备 MNIST 数 据 ， 将 其 归 一 化 和 向 量化 ， 然 后 训练 : 


from keras.datasets import mnist 
import numpy as np 
(x_train, _), (x_test, _) = mnist.load_data() 


X train = x train.astype('float32') / 255. 

X test - x test.astype('float32') / 255. 

x train = x train.reshape((len(x train), np.prod(x_train.shape[1 
:1))) 

x_test = x_test.reshape((len(x_test), np.prod(x_test.shape[1:])) 
) 

print x_train.shape 

print x_test.shape 


autoencoder.fit(x_train, x_train, 
nb_epoch=50, 
batch_size=256, 
shuffle=True, 
validation_data=(x_test, x_test)) 


50 个 epoch 后 ， 看 起 来 我 们 的 自 编码 器 优化 的 不 错 了 ， 损 失 是 0.10， 我 们 可 视 化 一 
下 重 构 出 来 的 输出 : 


import matplotlib.pyplot as plt 


encoded_imgs = encoder.predict(x_test) 
decoded imgs = decoder .predict(encoded_imgs) 


n = 10 ho ( 
plt.figure(figsize=(20, 4)) 
for i in range(n): 


ax = plt.subplot(2, n, i) 
plt.imshow(x_test[i].reshape(28, 28)) 
plt.gray() 

ax.get xaxis().set visible(False) 
ax.get yaxis().set visible(False) 


ax = plt.subplot(2, n, i + n) 
plt.imshow(decoded imgs[i].reshape(28, 28)) 


plt.gray() 
ax.get xaxis().set visible(False) 


ax.get yaxis().set visible(False) 
plt.show() 


这 里 是 结果 : 
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刚刚 我 们 的 隐 层 有 32 个 神经 元 ， 这 种 情况 下 ， 一 般 而 言 自 编 码 器 学 到 的 是 PCA 的 一 
个 近似 〈《PCA 不 想 科 普 了 ) 。 但 是 如 果 我 们 对 隐 层 单元 施加 稀 朴 性 约束 的 话 ， 会 得 
到 更 为 紧凑 的 表达 ， 只 有 一 小 部 分 神经 元 会 被 激活 。 在 Keras 中 ， 我 们 可 以 通过 添 
加 一 个 activity_regularizer 达 到 对 某 层 激活 值 进行 约束 的 目的 : 

from keras import regularizers 

encoding_dim = 32 

input img = Input(shape=(7284, )) 

add a Den laver with a L1 a 
encoded - Dense(encoding dim, activation-'relu', 
activity regularizer-regularizers.activity li1(10 
e-5))(input img) 


decoded = Dense(784, activation-'sigmoid')(encoded) 


autoencoder - Model(input-input img, output-decoded) 


因为 我 们 添加 了 正则 性 约束 ， 所 以 模型 过 拟 合 的 风险 降低 ， 我 们 可 以 训练 多 几 次 ， 
这 次 训练 100 个 epoch， 得 到 损失 为 0.11， 多 出 来 的 0.01 基 本 上 是 由 于 正则 项 造成 
的 。 可 视 化 结果 如 下 : 
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结果 上 没有 毛线 差别 ， 区 别 在 于 编码 出 来 的 码 字 更 加 稀 跑 了 。 稀 路 自 编码 器 的 在 
10000 个 测试 图 片上 的 码 字 均 值 为 3.33， 而 之 前 的 为 7.30 


深度 上 自 编码 器 : de E HAZ S ALR 


把 多 个 自 编 码 器 县 起 来 ， 像 这 样 : 


input img = Input(shape=(784, )) 

encoded = Dense(128, activation-'relu')(input img) 
encoded = Dense(64, activation-'relu')(encoded) 
encoded = Dense(32, activation-'relu')(encoded) 


decoded = Dense(64, activation-'relu')(encoded) 
decoded = Dense(128, activation='relu' )(decoded) 
decoded = Dense(784, activation='sigmoid' ) (decoded) 


autoencoder = Model(input-input img, output=decoded) 
autoencoder.compile(optimizer-'adadelta', loss='binary_crossentr 
opy') 
autoencoder.fit(x train, x train, 

nb epochz100, 

batch size-256, 


shuffle-True, 
validation data-(x test, x test)) 


100 个 epoch 后 ，loss 大 概 是 0.097， 比 之 前 的 模型 好 那么 一 丢 丢 


BU 
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卷 积 自 编码 器 : 用 卷 积 建 自 编码 器 


当 输 入 是 图 像 时 ， 使 用 卷 积 神经 网 络 基本 上 总 a i — m 
像 的 自动 编码 器 几乎 都 是 卷 积 自 动 编码 器 简 



















卷 积 自 编码 器 的 编码 器 部 分 由 卷 积 层 ，MaxPooling 负 责 空 域 
下 采样 。 而 解码 器 由 卷 积 层 和 上 采样 层 构 成 。 


from keras.layers import Input, Dense, Convolution2D, MaxPooling 
2D, UpSampling2D 
from keras.models import Model 


input img = Input(shape=(1, 28, 28)) 


X = Convolution2D(16, 3, 3, activation-'relu', border_mode='same' 
J)(input img) 

x = MaxPooling2D((2, 2), border mode-'same')(x) 

x = Convolution2D(8, 3, 3, activation-'relu', border mode-'same' 
) (x) 

x = MaxPooling2D((2, 2), border_mode='same' )(x) 

X = Convolution2D(8, 3, 3, activation='relu', border_mode='same' 
)(x) 


encoded = MaxPooling2D((2, 2), border_mode='same' ) (x) 


# at this point the representation is (8, 4, 4) i.e. 128-dimensi 
onal 


x = Convolution2D(8, 3, 3, activation='relu', border_mode='same' 
) (encoded) 

x = UpSampling2D((2, 2))(x) 

X = Convolution2D(8, 3, 3, activation='relu', border_mode='same' 
)(x) 

x = UpSampling2D((2, 2))(Xx) 

Convolution2D(16, 3, 3, activation-'relu')(x) 
UpSampling2D((2, 2))(Xx) 

decoded = Convolution2D(1, 3, 3, activation-'sigmoid', border mo 


X 


X 
de='same' ) (Xx) 


autoencoder = Model(input_img, decoded) 
autoencoder.compile(optimizer-'adadelta', loss='binary_crossentr 


opy') 
I 
我 们 使 用 28283 的 原始 MINIST 图 像 (尽管 看 起 来 还 是 灰 度 图 ) 训练 网 络 ， 图 片 的 像 
素 被 归 一 化 到 0~1 之 间 。 


from keras.datasets import mnist 
import numpy as np 


(x_train, _), (x_test, _) = mnist.load_data() 


X train = x train.astype('float32') / 255. 

X test - x test.astype('float32') / 255. 

x train - np.reshape(x train, (len(x train), 1, 28, 28)) 
X test - np.reshape(x test, (len(x test), 1, 28, 28)) 


为 了 可 视 化 训练 过 程 的 损失 情况 ， 我 们 使 用 TensorFlow 作 为 后 端 ， 这 样 就 可 以 启用 
TensorBoard 了 “。 打 开 一 个 终端 并 尼 动 TensorBoard，TensorBoard 将 读 取 位 
于 /tmp/autoencoder 的 日 志文 件 : 


tensorboard --logdir=/tmp/autoencoder 


然后 我 们 把 模型 训练 50 个 epoch， 并 在 回调 函数 列表 中 传 入 TensorBoard 回 调 函 
数 ， 在 每 个 epoch 后 回调 函数 将 把 训练 的 信息 写 入 刚才 的 那个 日 志文 件 里 ， 并 被 
TensorBoard 读 取 到 


from keras.callbacks import TensorBoard 


autoencoder.fit(x_train, x_train, 
nb_epoch=50, 
batch_size=128, 
shuffle-True, 
validation data-(x test, x test), 
callbacks=[TensorBoard(log_dir='/tmp/autoencoder ' 
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打开 浏览 器 进入 http:/0.0.0.0:6006 观 测 结 果 : 


loss val_loss 





0.114 
0.110 
0.140 
0.106 
0.120 0.102 
0.0980 
0.100 
0.0940 
d 0.000 10.00 20.00 30.00 40.00 50.00 de 0.000 10.00 20.00 30.00 40.00 50.00 
模型 最 后 的 loss 是 0.094， 要 比 之 前 的 模型 都 要 好 得 多 ， 因 为 现在 我 们 的 编码 器 的 表 
达 表 达能 力 更 强 了 。 


decoded_imgs = autoencoder.predict(x test) 


n = 10 
plt.figure(figsize=(20, 4)) 
for i in range(n): 


ax = plt.subplot(2, n, i) 
plt.imshow(x_test[i].reshape(28, 28)) 
plt.gray() 

ax.get xaxis().set visible(False) 
ax.get yaxis().set visible(False) 


ax = plt.subplot(2, n, i + n) 

plt.imshow(decoded imgs[i].reshape(28, 28)) 

plt.gray() 

ax.get xaxis().set visible(False) 

ax.get yaxis().set visible(False) 
plt.show() 
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我 们 也 可 以 看 看 中 间 的 码 字 长 什么 样 ， 这 些 码 字 的 shape 是 844， 我 们 可 以 将 其 
reshape 成 4*32 看 


n = 10 

plt.figure(figsize=(20, 8)) 

for i in range(n): 
ax = plt.subplot(i, n, i) 
plt.imshow(encoded_imgs[i].reshape(4, 4 * 8).T) 
plt.gray() 
ax.get xaxis().set visible(False) 


ax.get yaxis().set visible(False) 
plt.show() 





使 用 自动 编码 器 进行 图 像 去 品 


我 们 把 训练 样本 用 噪声 污染 ， 然 后 使 解码 器 解码 出 干净 的 照片 ， 以 获得 去 噪 自动 纺 
码 器 。 首 先 我 们 把 原 图 片 加 入 高 斯 噪声 ， 然 后 把 像素 值 clip 到 0~1 


from keras.datasets import mnist 
import numpy as np 


(x_train, _), (x_test, _) = mnist.load_data() 


x_train = x_train.astype('float32') / 255. 

X test = x test.astype('float32') / 255. 

x train - np.reshape(x train, (len(x train), 1, 28, 28)) 
X test - np.reshape(x test, (len(x test), 1, 28, 28)) 


noise factor - 0.5 

x train noisy = x train + noise factor * np.random.normal(loc=0.0 
, scale=1.0, size=x_train.shape) 

x_test_noisy = x_test + noise_factor * np.random.normal(loc=0.0, 
scale=1.0, size=x_test.shape) 


X train noisy = np.clip(x train noisy, ©., 1.) 
X test noisy = np.clip(x test noisy, 0., 1.) 


n——————————————————————————————————— MU jf 
我 们 可 以 先 看 看 被 污染 的 照片 长 啥 样 : 





和 之 前 的 卷 积 自动 编码 器 相 比 ， 为 了 提高 重 构图 质量 ， 我 们 的 模型 稍 有 不 同 


input img = Input(shape=(1, 28, 28)) 


X = Convolution2D(32, 3, 3, activation-'relu', border_mode='same' 
)(input img) 

x = MaxPooling2D((2, 2), border mode-'same')(x) 

x = Convolution2D(32, 3, 3, activation-'relu', border mode-'same' 
)(x) 


encoded = MaxPooling2D((2, 2), border_mode='same' )(x) 
# at this point the representation is (32, 7, 7) 


x = Convolution2D(32, 3, 3, activation-'relu', border mode-'same' 
)(encoded) 

x = UpSampling2D((2, 2))(x) 

X = Convolution2D(32, 3, 3, activation-'relu', border mode-'same' 
)(x) 

x = UpSampling2D((2, 2))(Xx) 

decoded = Convolution2D(i, 3, 3, activation-'sigmoid', border mo 
de-'same')(x) 


autoencoder - Model(input img, decoded) 
autoencoder.compile(optimizer-'adadelta', loss-'binary crossentr 


opy') 
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先 来 100 个 epoch 的 训练 看 看 结果 


autoencoder.fit(x_train_noisy, x_train, 
nb_epoch=100, 
batch_size=128, 
shuffle=True, 
validation_data=(x_test_noisy, x_test), 
callbacks=[TensorBoard(log_dir='/tmp/tb', histog 
ram_freq=0, write_graph=False) ]) 


结果 如 下 ， 棒 棒 叭 ~ 








BHEBRERGE 


果 你 将 这 个 过 程 扩展 到 更 大 的 卷 积 你 可 以 处 理 文档 和 声音 的 去 骂 ，Kaggle 
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序列 到 序列 的 自动 编码 器 


如 果 你 的 输入 是 序列 而 不 是 2D 的 图 像 ， 那 么 你 可 能 想 要 使 用 针对 序列 的 模型 构造 自 
编码 器 ， 如 LSTM。 要 构造 基于 LSTM 的 自 "ud ， 首 先 我 们 需要 一 个 LSTM 的 
器 来 将 输入 序列 变 为 一 个 向 量 ， 然 后 将 这 个 向 量 重 复 N 此 ， 然 后 用 LSTM 的 解码 器 

这 个 N 步 的 时 间 序 列 变 为 目标 序列 。 


这 里 我 们 不 针对 任何 特定 的 数据 库 做 这 件 事 ， 只 提供 代码 供 读者 参考 


from keras.layers import Input, LSTM, RepeatVector 
from keras.models import Model 


inputs = Input(shape=(timesteps, input_dim) ) 
encoded = LSTM(latent_dim) (inputs) 


decoded = RepeatVector(timesteps ) (encoded ) 
decoded = LSTM(input, return_sequences=True) (decoded) 


sequence_autoencoder = Model(inputs, decoded) 
encoder = Model(inputs, encoded) 


变 分 自 编码 器 (Variational autoencoder > VAE ) 
编码 数据 的 分 布 


编码 自 编码 器 是 更 现代 和 有 趣 的 一 种 自动 编码 器 ， 它 为 码 字 施加 约束 ， 使 得 编码 器 
学 习 到 输入 数据 的 隐 变 量 模型 。 隐 变量 模型 是 连接 显 变量 集 和 隐 变 量 集 的 统计 模 
型 ， 隐 变量 模型 的 假设 是 显 变量 是 由 隐 变 量 的 状态 控制 的 ， 各 个 显 变量 之 间 条 件 独 
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的 一 组 参数 。 通 过 在 这 sr 你 可 以 生成 新 的 输入 数据 ， 即 变 分 编码 


器 是 一 个 生成 模型 。 
下 面 是 变 分 编码 器 的 工作 原理 : 


首先 ， 编 码 器 网 络 将 输入 样本 X 转 换 为 隐 空 间 的 两 个 参数 ， 记 作 z_mean 和 

z log sigma 。 然 后 ， 我 们 随机 从 隐藏 的 正 态 分 布 中 采样 得 到 数据 点 Z， 这 个 隐藏 分 
布 我 们 假设 就 是 产生 输入 数据 的 那个 分 布 *z= Zz mean + 
exp(z_log_sigma)*epsilon，epsilon 是 一 个 服从 正 态 分 布 的 张 量 。 最 后 ， 使 用 解码 
器 网 络 将 隐 空 间 映 射 到 显 空间 ， 即 将 z 转 换 回 原来 的 输入 数据 空间 。 


参数 厌 由 两 个 损失 函数 来 训练 ， 一 个 是 重 构 损 失 函 数 ， 该 函数 要 求解 码 出 来 的 样本 
与 输入 的 样本 相似 (与 之 前 的 自 编码 器 相同 ) ， 第 二 项 损失 函数 是 学 习 到 的 隐 分 布 
与 先 验 分 布 的 KL 距 离 ， 作 为 一 个 正则 。 实 际 上 把 后 面 这 项 损失 函数 去 掉 也 可 以 ， 尽 
管 它 对 学 习 符 合 要求 的 隐 空 间 和 防止 过 拟 合 有 帮助 。 


oO 
里 我 们 来 一 步 步 回顾 一 下 这 个 模型 是 如 何 搭建 的 


首先 ， 建 立 编码 网 络 ， 将 输入 影射 为 隐 分 布 的 参数 : 


X 
h 
z mean = Dense(latent dim)(h) 


Input(batch shape-(batch size, original dim)) 
Dense(intermediate dim, activation='relu')(x) 


z log sigma = Dense(latent dim)(h) 


然后 从 这 些 参数 确定 的 分 布 中 采样 ， 这 个 样本 相当 于 之 前 的 隐 层 值 


def sampling(args): 
z mean, z log sigma = args 
epsilon = K.random normal(shape-(batch size, latent dim), 
mean=0., std-epsilon std) 
return z mean + K.exp(z log sigma) * epsilon 


4 note that "output shape" isn't necessary with the TensorFlow b 
ackend 

4 so you could write ^"Lambda(sampling)([z mean, z log sigma])' 

z = Lambda(sampling, output shape-(latent dim,))([z mean, z log. 
sigma]) 


最 后 ， 将 采样 得 到 的 点 映射 回去 重 构 原 输入 : 


decoder h = Dense(intermediate dim, activation='relu' ) 
decoder mean = Dense(original dim, activation='sigmoid' ) 
h decoded = decoder h(z) 

x decoded mean = decoder mean(h decoded) 


到 目前 为 止 我 们 做 的 工作 需要 实例 化 三 个 模型 : 
e 一 个 端 到 端的 自动 编码 器 ， 用 于 完成 输入 信号 的 重 构 
e 一 个 用 于 将 输入 空间 映射 为 隐 空 间 的 编码 器 
e. 一 个 利用 隐 空 间 的 分 布 产生 的 样本 点 生成 对 应 的 重 构 样本 的 生成 器 


# end-to-end autoencoder 
vae = Model(x, x_decoded mean) 


# encoder, from inputs to latent space 
encoder = Model(x, z_mean) 


# generator, from latent space to reconstructed inputs 
decoder input = Input(shape=(latent_din, )) 

_h_decoded = decoder_h(decoder_input ) 

_x_decoded_mean = decoder mean( h decoded) 

generator - Model(decoder input, x decoded mean) 
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def vae loss(x, x decoded mean): 
xent loss - objectives.binary crossentropy(x, x decoded mean 


kl loss = - 0.5 * K.mean(i + z log sigma - K.square(z mean) 
- K.exp(z log sigma), axis=-1) 
return xent loss + kl loss 


vae.compile(optimizer-'rmsprop', loss-vae loss) 


现在 使 用 MNIST 库 来 训练 变 分 编码 器 : 
(x_train, y_train), (x_test, y_test) = mnist.load_data() 


x train = x_train.astype('float32') / 255. 

X test = x_test.astype('float32') / 255. 

x train = x train.reshape((len(x train), np.prod(x_train.shape[1 
:1))) 

x_test = x_test.reshape((len(x_test), np.prod(x_test.shape[1:])) 


) 


vae.fit(x_train, x_train, 
shuffle=True, 
nb_epoch=nb_epoch, 
batch_size=batch_size, 
validation_data=(x_test, x_test)) 


因为 我 们 的 隐 空 间 只 有 两 维 ， 所 以 我 们 可 以 可 视 化 一 下 。 我 们 来 看 看 2D 平 面 中 不 同 
类 的 近邻 分 布 : 


x_test_encoded = encoder.predict(x_test, batch_size=batch_size) 
plt.figure(figsize-(6, 6)) 

plt.scatter(x_test_encoded[:, 0], x_test_encoded[:, 1], c=y_test 
) 

plt.colorbar() 

plt.show() 





上 图 每 种 颜色 代表 一 个 数字 ， 相 近 聚 类 的 数字 代表 他 们 在 结构 上 相似 。 


因为 变 分 编码 器 是 一 个 生成 模型 ， 我 们 可 以 用 它 来 生成 新 数字 。 我 们 可 以 从 隐 和 平面 
上 采样 一 些 点 ， 然 后 生成 对 应 的 显 变量 ， 即 MNIST 的 数字 : 


# display a 2D manifold of the digits 

n= 15 # figure with 15x15 digits 

digit_size = 28 

figure = np.zeros((digit_size * n, digit_size * n)) 

# we will sample n points within [-15, 15] standard deviations 
grid_x = np.linspace(-15, 15, n) 

grid_y = np.linspace(-15, 15, n) 


for i, yi in enumerate(grid_x): 
for j, Xi in enumerate(grid_y): 
z sample = np.array([[xi, yi]]) * epsilon_std 
x_decoded = generator.predict(z sample) 
digit = x decoded[9].reshape(digit size, digit size) 
figure[i * digit size: (i + 1) * digit size, 
j * digit size: (j + 1) * digit size] = digit 


plt.figure(figsize=(10, 10)) 
plt .imshow( figure) 
plt .show( ) 
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OK 这 就 是 本 文 的 全 部 ， 如 果 你 觉得 本 文 还 可 以 增加 点 别 的 主题 ， 可 以 在 Twitter 上 
@fchollet 
参考 文献 


e [1] Why does unsupervised pre-training help deep learning? 


e [2] Batch normalization: Accelerating deep network training by reducing 
internal covariate shift. 


e [3] Deep Residual Learning for Image Recognition 


e [4] Auto-Encoding Variational Bayes 
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面向 小 数据 集 构建 图 像 分 类 模型 


文 草 信息 ws 


本 文 地 址 : http://blog.keras.io/building-powerful-image-classification-models- 
using-very-little-data.html 


本 文 作 者 : Francois Chollet 


概述 


在 本 文中 ， 我 们 将 提供 一 些 面 向 小 数据 集 ( 几 百 张 到 几 千 张 图 片 ) 构造 高 效 、 实 用 
的 图 像 分 类 器 的 方法 。 


本 文 将 探讨 如 下 几 种 方法 : 
e 从 图 片 中 直接 训练 一 个 小 网 络 (作为 基准 方法 ) 
e 利用 预 训 练 网 络 的 bottleneck (FLA) 特征 
e fine-tune 预 训练 网 络 的 高 层 
本 文 需要 使 用 的 Keras 模 块 有 : 
e fit generator : 用 于 从 Python 生成 器 中 训练 网 络 
e ImageDataGenerator : 用 于 实时 数据 提升 


e 层 参 数 冻结 和 模型 fine-tune 


配置 情况 
我 们 的 实验 基于 下 面 的 配置 
e 2000 张 训练 图 片 构 成 的 数据 集 ， 一 共 两 个 类 别 ， 每 类 1000 张 


e 安装 有 Keras，SciPy，PIL 的 机 器 ， 如 果 有 NVIDIA GPU 那 就 更 好 了 ， 但 因为 我 
们 面 对 的 是 小 数据 集 ， 没 有 也 可 以 。 


e 数据 集 按照 下 面 的 形式 存放 


data/ 
train/ 
dogs/ 
dog001.jpg 
dog002.jpg 


cats/ 
cat001/jpg 
cat002.jpg 


validation/ 
dogs/ 
dog001.jpg 
dog002.jpg 


cats/ 
cat001/jpg 
cat002.jpg 


这 份 数 据 集 来 源 于 Kaggle， 原 数据 集 有 12500 只 猫 和 12500 只 狗 ， 我 们 只 取 了 各 个 
类 的 前 1000 张 图 片 。 另 外 我 们 还 从 各 个 类 中 取 了 400 张 额外 图 片 用 于 测试 。 


下 面 是 数据 集 的 一 些 示例 图 片 ， 图 片 的 数量 非常 少 ， 这 对 于 图 像 分 类 来 说 是 个 大 麻 
烦 。 但 现实 是 ， 很 多 丨 实 世 界 图 片 获 取 是 很 困难 的 ， 我 们 能 得 到 的 样本 数目 确实 很 
有 限 (比如 医学 图 像 ， 每 张 正 样本 都 意味 着 一 个 承受 痛苦 的 病人 :() 。 对 数据 科学 
家 而 言 ， 我 们 应 该 有 能 够 榨取 少量 数据 的 全 部 价值 的 能 力 ， 而 不 是 简单 的 伸手 要 更 
多 的 数据 。 





Worms 


在 Kaggle 的 猫 狗 大 战 竞赛 种 ， 参 赛 者 通过 使 用 现代 的 深度 学 习 技术 达到 了 98% 的 正 
确 率 ， 我 们 只 使 用 了 全 部 数据 的 8%， 因 此 这 个 问题 对 我 们 来 说 更 难 。 


针对 小 数据 集 的 深度 学 习 


我 经 常 听 到 的 一 种 说 法 是 ， 深 度 学 习 只 有 在 你 拥有 海量 数据 时 才 有 意义 。 虽 然 这 种 
说 法 并 不 是 完全 不 对 ， 但 却 具有 较 强 的 误导 性 。 当 然 ， 深 度 学 习 强 调 从 数据 中 自动 
学 习 特 征 的 能 力 ， 没 有 足够 的 训练 样本 ， 这 几乎 是 不 可 能 的 。 尤 其 是 当 输 入 的 数据 
维度 很 高 (如 图 片 ) 时 。 然 而 ， 卷 积 神经 网 络 作 为 深度 学 习 的 支柱 ， 被 设计 为 针 
对 “感知 "问题 最 好 的 模型 之 一 (如 图 像 分 类 问题 ) ， 即 使 只 有 很 少 的 数据 ， 网 络 也 
能 把 特征 学 的 不 错 。 针 对 小 数据 集 的 神经 网 络 依 然 能 够 得 到 合理 的 结果 ， 并 不 需要 
任何 手工 的 特征 工程 。 一 言 以 蔽 之 ， 卷 积 神经 网 络 大 法 好 | 


另 一 方面 ， 深 度 学 习 模 型 天 然 就 具有 可 重用 的 特性 : 比方 说 ， 你 可 以 把 一 个 在 大 规 
模 数据 上 训练 好 的 图 像 分 类 或 语音 识别 的 模型 重用 在 另 一 个 很 不 一 样 的 问题 上 ， 而 
只 需要 做 有 限 的 一 点 改动 。 尤 其 在 计算 机 视觉 领域 ， 许 多 预 训练 的 模型 现在 都 被 公 
开 下 载 ， 并 被 重用 在 其 他 问题 上 以 提升 在 小 数据 集 上 的 性 能 。 


数据 预 处 理 与 数据 提升 


为 了 尽量 利用 我 们 有 限 的 训练 数据 ， 我 们 将 通过 一 系列 随机 变换 堆 数据 进行 提升 ， 
这 样 我 们 的 模型 将 看 不 到 任何 两 张 完全 相同 的 图 片 ， 这 有 利于 我 们 抑制 过 拟 合 ， 使 
得 模型 的 泛 化 能 力 更 好 。 


在 Keras 中 ， 这 个 步骤 可 以 通 
过 keras.preprocessing.image.ImageGenerator 来 实现 ， 这 个 类 使 你 可 以 : 


e 在 训练 过 程 中 ， 设 置 要 施行 的 随机 变换 


e 通过 .flow 或 .flow_from_directory(directory) 方法 实例 化 一 个 针对 图 
像 batch 的 生成 器 ， 这 些 生成 器 可 以 被 用 作 keras 模 型 相关 方法 的 输入 ， 


如 fit_generator ， evaluate_generator 和 predict_generator 


现在 让 我 们 看 个 例子 
from keras.preprocessing.image import ImageDataGenerator 


datagen = ImageDataGenerator ( 
rotation_range=40, 
width_shift_range=0.2, 
height_shift_range=0.2, 
rescale=1./255, 
shear_range=0.2, 
zoom_range=0.2, 
horizontal_flip=True, 
fill mode-z'nearest') 


上 面 显 示 的 只 是 一 部 分 选项 ， 请 阅读 文档 的 相关 部 分 来 查看 全 部 可 用 的 选项 。 我 们 
来 快速 的 浏览 一 下 这 些 选 项 的 含义 : 


e rotation range 是 一 个 0~180 的 度数 ， 用 来 指定 随机 选择 图 片 的 角度 


e width shift 和 height shift 用 来 指定 水 平和 竖 直 方向 随机 移动 的 程度 ， 
这 是 两 个 0~1 之 间 的 比例 。 


e rescale 值 将 在 执行 其 他 处 理 前 乘 到 整个 图 像 上 ， 我 们 的 图 像 在 RGB 通道 都 
是 0~255 的 整数 ， 这 样 的 操作 可 能 使 图 像 的 值 过 高 或 过 低 ， 所 以 我 们 将 这 个 值 
定 为 0~1 之 间 的 数 。 


e shear range 是 用 来 进行 剪 切 变换 的 程度 ， 参 考 剪 切 变 换 
e zoom range 用 来 进行 随机 的 放大 


e horizontal flip 随机 的 对 图 片 进行 水 平 翻转 ， 这 个 参数 适用 于 水 平 翻转 不 
影响 图 片 语义 的 时 候 


e fill mode 用 来 指定 当 需 要 进行 像素 填充 ， 如 旋转 ， 水 平和 坚 直 位 移 时 ， 如 
何 填充 新 出 现 的 像素 


下 面 我 们 使 用 这 个 工具 来 生成 图 片 ， 并 将 它们 保存 在 一 个 临时 文件 夹 中 ， 这 样 我 们 
可 以 感觉 一 下 数据 提升 究竟 做 了 什么 事 。 为 了 使 图 片 能 够 展示 出 来 ， 这 里 没有 使 


用 rescaling 


from keras.preprocessing.image import ImageDataGenerator, array_ 
to_img, img_to_array, load_img 


datagen = ImageDataGenerator ( 
rotation_range=40, 
width_shift_range=0. 2, 
height_shift_range=0.2, 
shear_range=0.2, 
zoom_range=0. 2, 
horizontal flip-True, 
fill mode-'nearest') 


img = load img('data/train/cats/cat.0.jpg') # this is a PIL ima 


ge 
X = img to array(img) # this is a Numpy array with shape (3, 15 
0, 150) 


X = x.reshape((1,) + x.shape) # this is a Numpy array with shap 
e (1, 3, 150, 150) 


4 the .flow() command below generates batches of randomly transf 
ormed images 
4 and saves the results to the ‘preview/ directory 
i=0 
for batch in datagen.flow(x, batch_size=1, 
save_to_dir='preview', save_prefix='ca 
t', save_format='jpeg'): 
i += 1 
if e20 
break # otherwise the generator would loop indefinitely 


下 面 是 一 张 图 片 被 提升 以 后 得 到 的 多 个 结果 : 





在 小 数据 集 上 训练 神经 网 络 : 40 行 代码 达到 80% 的 准确 
ES 


进行 图 像 分 类 的 正确 工具 是 卷 积 网 络 ， 所 以 我 们 来 试 试用 卷 积 神经 网 络 搭建 一 个 初 
级 的 模型 。 因 为 我 们 的 样本 数 很 少 ， 所 以 我 们 应 该 对 过 拟 合 的 问题 多 加 注意 。 当 一 
个 模型 从 很 少 的 样本 中 学 习 到 不 能 推广 到 新 数据 的 模式 时 ， 我 们 称 为 出 现 了 过 拟 合 
的 问题 。 过 拟 合 发 生 时 ， 模 型 试图 使 用 不 相关 的 特征 来 进行 预测 。 例 如 ， 你 有 三 张 
伐木 工人 的 照片 :有 三 张 水 手 的 照片 RRRA FRA -RRIAT HT e 
果 你 认为 戴 帽 子 是 能 将 伐木 工人 与 水 手 区 别 开 的 特征 ， 那 么 此 时 你 就 是 一 个 差劲 的 


从 类 器 
2 X7 


数据 提升 是 对 抗 过 拟 合 问题 的 一 个 武器 ， 但 还 不 够 ， 因 为 提升 过 的 数据 仍然 是 高 度 
相关 的 。 对 抗 过 拟 合 的 你 应 该 主要 关注 的 是 模型 的 “ 炉 容量 "一 一 模型 允许 存储 的 信 
息 量 。 能 够 存储 更 多 信息 的 模型 能 够 利用 更 多 的 特征 取得 更 好 的 性 能 ， 但 也 有 存储 
不 相关 特征 的 风险 。 另 一 方面 ， 只 能 存储 少量 信息 的 模型 会 将 存储 的 特征 主要 集中 
在 真正 相关 的 特征 上 ， 并 有 更 好 的 泛 化 性 能 。 


有 很 多 不 同 的 方法 来 调整 模型 的 “ 炉 容量 *"， 常 见 的 一 种 选择 是 调整 模型 的 参数 数 
目 ， 即 模型 的 层 数 和 每 层 的 规模 。 另 一 种 方法 是 对 权重 进行 正则 化 约束 ， 如 L1 或 
L2. 这 种 约束 会 使 模型 的 权重 偏向 较 小 的 值 。 


在 我 们 的 模型 里 ， 我 们 使 用 了 很 小 的 卷 积 网 络 ， 只 有 很 少 的 几 层 ， 每 层 的 滤波 器 数 
目 也 不 多 。 再 加 上 数据 提升 和 Dropout， 就 差不多 了 。Dropout 通 过 防止 一 层 看 到 两 
次 完全 一 样 的 模式 来 防止 过 拟 合 ， 相 当 于 也 是 一 种 数据 提升 的 方法 。 (你 可 以 说 
dropout 和 数据 提升 都 在 随机 扰乱 数据 的 相关 性 ) 


下 面 展示 的 代码 是 我 们 的 第 一 个 模型 ， 一 个 很 简单 的 3 层 卷 积 加 上 ReLU 激 活 函 数 ， 


再 接 max-pooling 层 。 这 个 


(除了 ReLU) 


这 个 实验 的 全 部 代码 在 这 里 


然 
择 


为 


from keras.models import Sequential 


from keras.layers import Convolution2D, MaxPooling2D 


结构 和 Yann LeCun 在 1990 年 发 布 的 图 像 分 类 器 很 相似 


from keras.layers import Activation, Dropout, Flatten, Dense 


model 


model. 
model. 
model. 


model. 
model. 
model. 


model. 
model. 
model. 


= Sequential() 


add(Convolution2D(32, 3, 3, input_shape=(3, 150, 150))) 


add(Activation('relu')) 
add(MaxPooling2D(pool_size=(2, 2))) 


add(Convolution2D(32, 3, 3)) 
add(Activation('relu')) 
add(MaxPooling2D(pool_size=(2, 2))) 


add(Convolution2D(64, 3, 3)) 
add(Activation('relu')) 
add(MaxPooling2D(pool_size=(2, 2))) 


> model so far outputs 3D feature maps (height, 


后 我 们 接 了 两 个 全 连接 网 络 ， 并 以 单个 神经 元 和 sigmoid 激 活 结 
会 


产生 二 分 类 的 结果 ， 与 这 种 配置 相 适 
损失 函数。 


= 


width, featu 


模型 。 这 种 选 


应 ， 我 们 使 用 binary_crossentropy 作 


model.add(Flatten()) # this converts our 3D feature maps to 1D 
feature vectors 

model .add(Dense(64)) 

model.add(Activation('relu')) 

model.add(Dropout(0.5)) 

model.add(Dense(1)) 

model.add(Activation( sigmoid')) 


model.compile(loss-'binary crossentropy', 
optimizer='rmsprop', 
metrics=['accuracy']) 


然后 我 们 开始 准备 数据 ， 使 用 ,flow from directory() 来 从 我 们 的 jpgs 图 片 中 
直接 产生 数据 和 标签 。 


KÅRE 


# this is the augmentation configuration we will use for training 


train_datagen = ImageDataGenerator( 
rescale=1./255, 
shear_range=0.2, 
zoom_range=0. 2, 
horizontal_flip=True) 


# this is the augmentation configuration we will use for testing: 


# only rescaling 
test datagen = ImageDataGenerator(rescale=1 ./255) 


# this is a generator that will read pictures found in 
# subfolers of 'data/train', and indefinitely generate 
# batches of augmented image data 
train generator = train datagen.flow from directory( 
'data/train', # this is the target directory 
target size-(150, 150), # all images will be resized to 
150x150 
batch size-32, 
class mode-'binary') # since we use binary crossentropy 


loss, we need binary labels 


4 this is a similar generator, for validation data 
validation generator - test datagen.flow from directory( 
'data/validation', 
target size-(150, 150), 
batch size-32, 
class mode-'binary') 


al ——————— 1 | 


AR J& Tl ST VALE] 3C 2E RE RD IL AT > EGPULA*epoch#t 20-304 > 4E 
CPU 上 耗 时 300~400 秒 ， 所 以 如 果 你 不 是 很 着 急 ， 在 CPU 上 跑 这 个 模型 也 是 完全 可 
以 的 。 
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model.fit generator( 
train generator, 
samples per epoch-2000, 
nb_epoch=50, 
validation_data=validation_generator, 
nb_val_samples=800 ) 
model.save_weights('first_try.h5') # always save your weights a 


fter training or during training 


3% NAR A 250 epoch & 44 7 75 3 73 7996-8196 > $1 E T RNA 78 3 89697 KE > 96, 
没有 花 时 间 来 做 模型 和 超 参数 的 优化 。 E , ， 这 个 模型 型 已 经 可 以 进 前 100 名 
f (一 共 215 队 参与 ) ， 估 计 剩 下 的 115 队 都 没有 用 深度 学 习 ?) 


注意 这 个 准确 率 的 变化 可 能 会 比较 大 ， 因 为 准确 率 本 来 就 是 一 个 变化 较 高 的 评估 参 
数 ， 而 且 我 们 只 有 800 个 样本 用 来 测试 。 比 较 好 的 验证 方法 是 使 用 K 折 交叉 验证 ， 但 
每 轮 验证 中 我 们 都 要 训练 一 个 模型 。 


使 用 预 训练 网 络 的 bottleneck 特 征 : 一 分 钟 达到 90% 的 
正确 座 


一 个 稍微 讲究 一 点 的 办 法 是 ， 利 用 在 大 规模 数据 集 上 预 训练 好 的 网 络 。 这 样 的 网 络 
在 多 数 的 计算 机 视觉 问题 上 都 能 取得 不 错 的 特征 ， 利 用 这 样 的 特征 可 以 让 我 们 获得 
更 高 的 准确 率 。 


我 们 将 使 用 vgg-16 网 络 ， 该 网 络 在 ImageNet 数 据 集 上 进行 训练 ， 这 个 模型 我 们 之 前 
提 到 过 了 。 因 为 ImageNet 数 据 集 包含 多 种 “ 猫 " 类 和 多 种 “ 狗 ” 类 ， 这 个 模型 已 经 能 够 
学 习 与 我 们 这 个 数据 集 相关 的 特征 了 。 事 实 上 ， 简 单 的 记录 原来 网 络 的 输出 而 不 用 
bottleneck 特 征 就 已 经 足够 把 我 们 的 问题 解决 的 不 错 了 。 不 过 我 们 这 里 讲 的 方法 对 
其 他 的 类 似 问 题 有 更 好 的 推广 性 ， 包 括 在 ImageNet 中 没有 出 现 的 类 别 的 分 类 问题 。 


VGG-16 的 网 络 结构 如 下 


上 数据 集 构建 图 像 分 类 模型 


Bottleneck 
features 


Convolution2D 
Convolution2D 
MaxPooling2D 


Convolution2D 
Convolution2D 
MaxPooling2D 


Convolution2D 


Convolution2D 


Convolution2D 
MaxPooling2D 


Convolution2D 
Convolution2D 


Convolution2D 


MaxPooling2D 


Flatten 





Conv block 1: 
64 output filters 


Conv block 2: 
128 output filters 


Conv block 3: 
256 output filters 


Conv block 4: 
512 output filters 


Conv block 5: 
512 output filters 


Fully-connected 
classifier 
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我 们 的 方法 是 这 样 的 ， 我 们 将 利用 网 络 的 卷 积 层 ， 把 全 连接 以 上 的 部 分 抛 掉 。 
然后 在 我 们 的 训练 集 和 测试 集 上 跑 一 遍 ， 将 得 到 : * di ( BP “bottleneck feature" > 
网 络 在 全 连接 之 前 的 最 后 一 层 激活 的 feature map) 记录 在 两 个 numpy array €. » & 
后 我 们 基于 记录 下 来 的 特征 训练 一 个 全 连接 网 络 。 


些 特 征 保 存 为 离线 形式 ， 而 不 是 将 我 们 的 全 连接 模型 直接 加 到 网 络 上 并 冻 
结 之 前 的 层 参 数 进 行 训练 的 原因 是 处 于 计算 效率 的 考虑 。 运 行 VGG 网 络 的 代价 是 非 
常 高 吨 的 ， 尤 其 是 在 CPU 上 运行 ， 所 以 我 们 只 想 运行 一 次 。 这 也 是 我 们 不 进行 数据 

提升 的 原因 。 


我 们 不 再 玖 述 如 何 搭建 vgg-16 网 络 了 ， 这 件 事 之 前 已 经 说 过 ， 在 keras 的 example 里 
也 可 以 找到 。 但 让 我 们 看 看 如 何 记录 bottleneck 特 征 。 


generator = datagen.flow_from_directory( 
'data/train', 
target_size=(150, 150), 
batch_size=32, 


class_mode=None, # this means our generator will only y 


ield batches of data, no labels 
shuffle=False) # our data will be in order, 
t 1000 images will be cats, then 1000 dogs 


so all firs 


# the predict_generator method returns the output of a model, gi 


ven 
# a generator that yields batches of numpy data 


bottleneck_features_train = model.predict_generator(generator, 2 


000) 
# save the output as a Numpy array 


np.save(open('bottleneck features train.npy', 'w'), bottleneck f 


eatures train) 


generator - datagen.flow from directory( 
'data/validation', 
target size-(150, 150), 
batch size-32, 
class modezNone, 
shuffle-False) 


bottleneck features validation - model.predict generator(generat 


or, 800) 


np.save(open('bottleneck features validation.npy', 'w'), bottlen 


eck features validation) 


记录 完毕 后 我 们 可 以 将 数据 载 入 ， 用 于 训练 我 们 的 全 连接 网 络 : 


train data = np.load(open('bottleneck features train.npy')) 

4 the features were saved in order, so recreating the labels is 
easy 

train labels = np.array([0] * 1000 + [1] * 1000) 


validation data - np.load(open('bottleneck features validation.n 
py')) 
validation labels = np.array([0] * 400 + [1] * 400) 


model - Sequential() 
model.add(Flatten(input shape-train data.shape[1:])) 
model.add(Dense(256, activation-'relu')) 
model.add(Dropout(0.5)) 

model.add(Dense(1, activation='sigmoid')) 


model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy']) 


model.fit(train_data, train_labels, 
nb_epoch=50, batch_size=32, 
validation_data=(validation_data, validation_labels) ) 
model.save weights('bottleneck fc model.h5') 


因为 特征 的 size 很 小 ， 模 型 在 CPU 上 跑 的 也 会 很 快 ， 大 概 1s 一 个 epoch， 最 后 我 们 
的 准确 率 是 90%~91%， 这 么 好 的 结果 多 半 归 功 于 预 训 练 的 vgg 网 络 帮 助 我 们 提取 特 


征 。 


在 预 训 练 的 网 络 上 fine-tune 


为 了 进一步 提高 之 前 的 结果 ， 我 们 可 以 试 着 fine-tune 网 络 的 后 面 几 层 。Fine-tune 以 
一 个 预 训练 好 的 网 络 为 基础 ， 在 新 的 数据 集 上 重新 训练 一 小 部 分 权重 。 在 这 个 实验 
中 ，fine-tune 分 三 个 步骤 


。 搭建 vgg-16 并 载 入 权重 


e. 将 之 前 定义 的 全 连接 网 络 加 在 模型 的 顶部 ， 并 载 入 权重 


面向 小 数据 集 构建 图 像 分 类 模型 


e. 冻结 ygg16 网 络 的 一 部 分 参数 


y ) frozen 
Conv block 2: 
frozen 
Conv block 3: 
bs 
Convolution2D 
Coan lost 4: 
frozen 
[comet 
[eem] | We fine-tune 
[como] | Conv block s 
d 
We fine-tune 
our own 
fully-connected 
classifier 
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e 为 了 进行 fine-tune, 所 有 的 层 都 应 该 以 训练 好 的 权重 为 初始 值 ， 例 如 ， 你 不 能 将 
d 连接 放 在 预 训练 的 卷 积 层 之 上 ， 这 是 因为 由 随机 权重 产生 的 大 梯 
会 破坏 卷 积 层 预 训练 的 权重 。 在 我 们 的 情形 中 ， 这 就 是 为 什么 我 们 首先 训 

EE 个 类 器 ， 然 后 再 基于 它 进 行 fine-tune 的 原因 


e 我 们 选择 只 fine-tune 最 后 的 卷 积 块 ， 而 不 是 整个 网 络 ， 这 是 为 了 防止 过 拟 合 。 
整个 网 络 具 有 巨大 的 容 量 ， 因 此 具有 很 高 的 过 拟 合 倾向 。 由 底层 卷 积 模块 学 
习 到 的 特征 更 加 一 般 ， 更 加 不 具有 抽象 性 ， 因 此 我 们 要 保持 前 两 个 卷 积 块 (学 
习 一 般 特 征 ) 不 动 ， 只 fine-tune 后 面 的 卷 积 块 (学 习 特 别 的 特征 ) © 


a To GARE E SGDALU m x 6E 3E EE 
习 率 的 优化 算法 ， 如 RMSProp。 这 是 为 了 保证 更 新 的 幅度 保持 在 较 低 的 程度 ， 
以 免 毁 坏 预 训 练 的 特征 。 


代码 如 下 ， 首 先 在 初始 化 好 的 vgg 网 络 上 添加 我 们 预 训 练 好 的 模型 : 


# build a classifier model to put on top of the convolutional mo 
del 

top model = Sequential() 

top model.add(Flatten(input shape-zmodel.output shape[::])) 

top model.add(Dense(256, activation='relu')) 

top model.add(Dropout(9.5)) 

top model.add(Dense(1, activation-'sigmoid')) 


4 note that it is necessary to start with a fully-trained 
4 classifier, including the top classifier, 

4 in order to successfully do fine-tuning 

top model.load weights(top model weights path) 


4 add the model on top of the convolutional base 
model.add(top model) 


然后 将 最 后 一 个 卷 积 块 前 的 卷 积 层 参 数 冻结 


面向 小 数据 集 构建 图 像 分 类 模型 


# set the first 25 layers (up to the last conv block) 
# to non-trainable (weights will not be updated) 
for layer in model.layers[:25]: 

layer.trainable = False 


# compile the model with a SGD/momentum optimizer 

# and a very slow learning rate. 

model.compile(loss-'binary crossentropy', 
optimizer-optimizers.SGD(lr-ie-4, momentum=0.9), 
metrics-['accuracy' ]) 


然后 以 很 低 的 学 习 率 进行 训练 : 
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# prepare data augmentation configuration 
train datagen = ImageDataGenerator( 
rescale-1./255, 
shear rangezo.2, 
zoom_range=0. 2, 


horizontal_flip=True) 
test datagen = ImageDataGenerator(rescale=1./255) 


train generator = train datagen.flow from directory( 
train data dir, 
target size-(img height, img width), 
batch size-32, 
class mode-z'binary') 


validation generator - test datagen.flow from directory( 
validation data dir, 
target size-(img height, img width), 
batch size-32, 
class mode-'binary') 


+ fine-tune the model 

model.fit generator( 
train generator, 
samples per epoch-nb train samples, 
nb epochznb epoch, 
validation data-validation generator, 
nb val samples-nb validation samples) 


在 50 个 epoch 之 后 该 方法 的 准确 率 为 94%， 非 常 成 功 
通过 下 面 的 方法 你 可 以 达到 95% 以 上 的 正确 率 : 

e 更 加 强烈 的 数据 提升 

e 更 加 强烈 的 dropout 

e 使 用 L1 和 L2 正 则 项 (也 称 为 权重 衰减 ) 


e fine-tune 更 多 的 卷 积 块 (配合 更 大 的 正则 ) 


面向 小 数据 集 构 建 图 像 分 类 模型 
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在 Keras 模 型 中 使 用 预 训 练 的 词 向 量 


文 草 信息 AS 


通过 本 教程 ， 你 可 以 掌握 技能 : 使 用 预先 训练 的 词 向 量 和 卷 积 神经 网 络 解决 一 个 文 
本 分 类 问题 本 文 代 码 已 上 传 到 Github 


本 文 地 址 : http://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras- 
model.html 


本 文 作者 : Francois Chollet 


什么 是 词 向 量 ? 


"pep X" (RAO) 是 将 一 类 将 词 的 语义 映射 到 向 量 空间 中 去 的 自然 语言 处 理 技 
术 。 即 将 一 个 词 用 特定 的 向 量 来 表示 ， 向 量 之 间 的 距离 (例如 ， 任 意 两 个 向 量 之 间 
的 L2 范 式 距 离 或 更 常用 的 余弦 距离 ) 一 定 程度 上 表征 了 的 词 之 间 的 语义 关系 。 由 这 
些 向 量 形 成 的 几何 空间 被 称 为 一 个 瞬 入 空间 。 


jet de 全 不 同 的 词 ， 所 以 它们 的 词 向 量 在 一 个 合理 的 肯 
空间 的 距离 将 会 非常 区 远 。 但 “厨房 "和 “晚餐 "是 相关 的 话 ， 所 以 它们 的 词 向 量 之 间 
NEAN E 
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会 精确 地 捕 提 这 两 个 概念 之 间 的 语义 关系 。 在 这 种 情况 下 ，" 路 径 ? 向 量 表示 的 是 “发 
生 的 地 点 "， 所 以 你 会 期 望 " 司 房 " 向 量 - “晚餐 "向 量 〈 两 个 词 向 量 的 差异 ) 捕捉 到 “发 
生 的 地 点 "这 样 的 语义 关系 。 基 本 上 ， 我 们 应 该 有 向 量 等 式 : 晚餐 + 发 生 的 地 点 = 
It (至 少 接近 ) 。 如 果 申 的 是 这 样 的话 ， 那 么 我 们 可 以 使 用 这 样 的 关系 向 量 来 回 

答 某 些 问题 。 例 如 ， 应 用 这 种 语义 关系 到 一 个 新 的 向 量 ， 上 比如 “工作 ”， 我 们 应 该 得 
到 一 个 有 意义 的 等 式 ， 工 作 + 发 生 的 地 点 = 办公室， 来 回答 “工作 发 生 在 哪里 ?” 


词 向 量 通 过 降 维 技术 表征 文本 数据 集中 的 词 的 共 现 信息 。 方 法 包括 神经 网 络 
(“Word2vec” 技 术 )， 或 矩阵 分 解 。 


GloVe 74] 5 = 


本 文 使 用 GloVe 词 向 量 。Glove 是 "Global Vectors for Word Representation" 49) 44 
写 ， 一 种 基于 共 现 和 矩阵 分 解 的 词 向 量 。 本 文 所 使 用 的 GloVe 词 向 量 是 在 2014 年 的 英 
文 维 基 百 科 上 训练 的 ， 有 400k 个 不 同 的 词 ， 每 个 词 用 100 维 向 量 表示 。 点 此 下 载 
(友情 提示 ， 词 向 量 文件 大 小 约 为 822M) 


20 Newsgroup dataset 


本 文 使 用 的 数据 集 是 著名 的 "20 Newsgroup dataset"。 该 数据 集 共 有 20 种 新 闻 文 本 
数据 ， 我 们 将 实现 对 该 数据 集 的 文本 分 类 任务 。 数 据 集 的 说 明和 下 载 请 参考 这 里 。 


不 同类 别 的 新 闻 包 含 大 量 不 同 的 单词 ， 在 语义 上 存在 极 大 的 差别 ，。 一 些 新 闻 类 别 
如 下 所 示 


comp.sys.ibm.pc.hardware 
comp.graphics 
comp.os.ms-windows.misc 
comp.sys.mac.hardware 
comp.windows.x 

rec.autos 

rec.motorcycles 
rec.sport.baseball 


rec.sport.hockey 


以 下 是 我 们 如 何 解决 分 类 问题 的 步骤 


e 将 所 有 的 新 闻 样 本 转化 为 词 索引 序列 。 所 谓词 索引 就 是 为 每 一 个 词 依 次 分 配 一 
个 整数 ID。 遍 历 所 有 的 新 闻 文 本 ， 我 们 只 保留 最 参见 的 20,000 个 词 ， 而 且 每 个 


新 闻 文 本 最 多 保留 1000 个 词 。 

e 生成 一 个 词 向 量 和 矩阵 。 第 i 列表 示 词 索引 为 的 词 的 词 向 量 。 

e. dE 65 € 4E 33^ Keras Embedding 层 ， 设 置 该 层 的 权重 不 可 再 训练 (也 就 是 
说 在 之 后 的 网 络 训 练 过 程 中 ， 词 向 量 不 再 改变 ) o 

e Keras Embedding 层 之 后 连接 一 个 1D 的 卷 积 层 ， 并 用 一 个 softmax 全 连接 输出 
新 闻 类 别 


数据 预 处 理 


我 们 首先 遍历 下 语 料 文件 下 的 所 有 文件 夹 ， 获 得 不 同类 别 的 新 闻 以 及 对 应 的 类 别 标 
签 ， 代 码 如 下 所 示 


texts = [] # list of text samples 
labels index = {} # dictionary mapping label name to numeric id 
labels = [] # list of label ids 


for name in sorted(os.listdir(TEXT_DATA_DIR)): 
path = os.path.join(TEXT_DATA_DIR, name) 
if os.path.isdir(path): 
label_id = len(labels_index) 
labels_index[name] = label_id 
for fname in sorted(os.listdir(path)): 
if fname.isdigit(): 
fpath = os.path.join(path, fname) 
f = open(fpath) 
texts.append(f.read()) 
f.close() 
labels.append(label id) 


print('Found %s texts.' % len(texts)) 


之 后 ， 我 们 可 以 新 闻 样 本 转化 为 神经 网 络 训练 所 用 的 张 量 。 所 用 到 的 Keras 库 是 
keras.preprocessing.text.Tokenizer 和 
keras.preprocessing.sequence.pad_sequences。 代 码 如 下 所 示 


from keras.preprocessing.text import Tokenizer 
from keras.preprocessing.sequence import pad_sequences 


tokenizer = Tokenizer(nb words-MAX NB WORDS) 
tokenizer.fit on texts(texts) 
sequences - tokenizer.texts to sequences(texts) 


word index - tokenizer.word index 
print('Found %s unique tokens.' % len(word index)) 


data = pad sequences(sequences, maxlen-MAX SEQUENCE LENGTH) 


labels - to categorical(np.asarray(labels)) 
print('Shape of data tensor:', data.shape) 
print('Shape of label tensor:', labels.shape) 


4 split the data into a training set and a validation set 
indices = np.arange(data.shape[0]) 

np.random.shuffle(indices) 

data - data[indices] 

labels - labels[indices] 

nb validation samples = int(VALIDATION SPLIT * data.shape[90]) 


x train data[:-nb validation samples] 


y train 
x val - data[-nb validation samples:] 


labels[:-nb validation samples] 


y val - labels[-nb validation samples:] 


Embedding layeri% ©. 


接 下 来 ， 我 们 从 GloVe 文 件 中 解析 出 每 个 词 和 它 所 对 应 的 词 向 量 ， 并 用 字典 的 方式 
存储 


embeddings_index = {} 
f = open(os.path.join(GLOVE DIR, 'glove.6B.100d.txt')) 
for line in f: 
values - line.split() 
word = values[0] 
coefs = np.asarray(values[1:], dtype='float32') 
embeddings_index[word] = coefs 
f.close() 


print('Found %s word vectors.' % len(embeddings index)) 


此 时 ， 我 们 可 以 根据 得 到 的 字典 生成 上 文 所 定义 的 词 向 量 和 矩阵 


embedding matrix = np.zeros((len(word index) + 1, EMBEDDING DIM) 
) 


for word, i in word_index.items(): 
embedding_vector = embeddings_index.get(word) 
if embedding vector is not None: 
# words not found in embedding index will be all-zeros. 


embedding matrix[i] - embedding vector 


现在 我 们 将 这 个 词 向 量 矩 阵 加 载 到 Embedding 层 中 ， 注 意 ， 我 们 设置 
trainable=False 使 得 这 个 编码 层 不 可 再 训练 。 


from keras.layers import Embedding 


embedding layer = Embedding(len(word_index) + 1, 
EMBEDDING_DIM, 
weights-[embedding matrix], 
input length-zMAX SEQUENCE LENGTH, 
trainable-False) 


一 个 Embedding 层 的 输入 应 该 是 一 系列 的 整数 序列 ， 比 如 一 个 2D 的 输入 ， 它 的 
shape 值 为 (samples, indices)， 也 就 是 一 个 samples 行 ，indeces 列 的 矩阵 。 每 一 次 
的 batch 训 练 的 输入 应 该 被 badded 成 相同 大 小 (尽管 Embedding 层 有 能 力 处 理 不 定 


长 序列 ， 如 果 你 不 指定 数列 长 度 这 一 参数 ) dim). 所 有 的 序列 中 的 整数 都 将 被 对 应 
的 词 向 量 矩阵 中 对 应 的 列 (也 就 是 它 的 词 向 量 ) 代替 ,比如 序列 [1.2] 将 被 序列 [ 词 向 
量 [1], 词 向 量 [2]] 代 替 。 这 样 ， 输 入 一 个 2D 张 量 后 ， 我 们 可 以 得 到 一 个 3D 张 量 。 


训练 1D 卷 积 
最 后 ， 我 们 可 以 使 用 一 个 小 型 的 1D 卷 积 解 决 这 个 新 闻 分 类 问题 。 
sequence input = Input(shape-(MAX SEQUENCE LENGTH, ), dtype='int3 


2 
embedded sequences - embedding layer(sequence input) 


X = ConviD(128, 5, activation-'relu')(embedded sequences) 
x = MaxPooling1D(5)(x) 

X = Conv1D(128, 5, activation-'relu')(x) 

x = MaxPooling1D(5)(x) 

x = ConviD(128, 5, activation-'relu')(x) 

x = MaxPooling1D(35)(x) # global max pooling 

x = Flatten()(x) 

x = Dense(128, activation-'relu')(x) 


preds = Dense(len(labels index), activation-'softmax')(x) 


model - Model(sequence input, preds) 

model.compile(loss-'categorical crossentropy', 
optimizer-'rmsprop', 
metrics-['acc']) 


4 happy learning! 
model.fit(x train, y train, validation data-(x val, y val), 
nb epochz2, batch size-128) 


在 两 次 迭代 之 后 ， 这 个 模型 最 后 可 以 达到 0.95 的 分 类 准确 率 (4:1 分 割 训练 和 测试 集 
合 ) 。 你 可 以 利用 正则 方法 (例如 dropout) 或 在 Embedding 层 上 进行 
得 更 高 的 准确 举 。 


fine-tuning 获 


我 们 可 以 做 一 个 对 比 实验 ， 直 接 使 用 Keras 自 带 的 Embedding 层 训练 词 向 量 而 不 用 
GloVe 向 量 。 代 码 如 下 所 示 


embedding layer = Embedding(len(word_index) + 1, 
EMBEDDING_DIM, 
input_length=MAX_SEQUENCE_LENGTH) 
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常 有 效 的 。 一 般 来 说 ， 在 自然 语言 处 理 任务 中 ， 当 样本 数量 非常 少时 ， 使 用 预 训练 
的 词 向 量 是 可 行 的 (实际 上 ， 预 训练 的 词 向 量 引入 了 外 部 语义 信息 ， 往 往 对 模型 很 
有 帮助 ) 。 


以 下 部 分 为 译 者 添加 


国内 的 Rachel-Zhang 用 sklearn 对 同样 的 数据 集 做 过 基于 传统 机 器 学 习 算 法 的 实 

验 ， 请 点 击 这 里 。 同时 Richard Socher 等 在 提出 GloVe 词 向 量 的 那 篇 AA iN 
GloVe 词 向 量 比 word2vec 的 性 能 更 好 [1]。 之 后 的 研究 表示 word2vec 和 GloVe 其 

有 千秋 ， 例 如 Schnabel 等 提出 了 用 于 测评 词 向 量 的 各 项 指标 ， 测 评 显 示 word2vec 
在 大 部 分 测评 指标 优 于 GloVe 和 C&W 词 向 量 [2]。 本 文 实现 其 实 可 以 利用 谷歌 新 闻 的 
Word2vec 词 向 量 再 做 一 组 测评 实验 。 


参考 文献 


[1]: Pennington J, Socher R, Manning C D. Glove: Global Vectors for Word 
Representation[C]//EMNLP. 2014, 14: 1532-1543 
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将 Keras 作 为 tensorflow 的 精简 接口 


文 草 信息 AS 


本 文 地 址 : [https://blog.keras.io/keras-as-a-simplified-interface-to-tensorflow- 
tutorial.html](https://blog.keras.io/keras-as-a-simplified-interface-to-tensorflow- 
tutorial.html) 本 文 作 者 : Francois Chollet 


使 用 Keras 作 为 TensorFlow 工 作 流 的 一 部 分 


如 果 Tensorflow 是 你 的 首选 框架 ， 并 且 你 想 找 一 个 简化 的 、 高 层 的 模型 定义 接口 来 
让 自己 活 的 不 那么 累 ， 那 么 这 篇 文章 就 是 给 你 看 的 


Keras 的 层 和 模型 与 纯 TensorFlow 的 tensor 完 全 兼容 ， 因 此 ，Keras 可 以 作为 
TensorFlow 的 模型 定义 ， 基 至 可 以 与 其 他 TensoFlow 库 协同 工作 。 


注意 ， 本 文 假定 你 已 经 把 Keras 配 置 为 tensorflow 后 端 ， 如 果 你 不 懂 怎 么 配置 ， 请 
查看 这 里 


+ 





Tensor 


在 tensorflow 中 调用 Keras 层 


让 我 们 以 一 个 简单 的 例子 开始 : MNIST 数 字 分 类 。 我 们 将 以 Keras 的 全 连接 层 堆 受 
构造 一 个 TensorFlow 的 分 类 器 ， 





import tensorflow as tf 
sess = tf.Session() 


from keras import backend as K 
K.set_session(sess) 


然后 ， 我 们 开始 用 tensorflow 构 建 模 型 : 


# this placeholder will contain our input digits, as flat vectors 


img = tf.placeholder(tf.float32, shape=(None, 784)) 
IE 


用 Keras 可 以 加 速 模型 的 定义 过 程 : 
from keras.layers import Dense 
# Keras layers can be called on TensorFlow tensors: 
X = Dense(128, activation-'relu')(img) # fully-connected layer 
with 128 units and ReLU activation 
X = Dense(128, activation-'relu')(x) 


preds = Dense(10, activation='softmax')(x) # output layer with 
10 units and a softmax activation 


定义 标签 的 占 位 符 和 损失 函数 : 


labels = tf.placeholder(tf.float32, shape=(None, 10)) 


from keras.objectives import categorical_crossentropy 
loss = tf.reduce mean(categorical crossentropy(labels, preds) ) 


然后 ， 我 们 可 以 用 tensorflow 的 优化 器 来 训练 模型 : 


from tensorflow.examples.tutorials.mnist import input_data 
mnist_data = input data.read data sets('MNIST data', one_hot=True 


) 


train step = tf.train.GradientDescentOptimizer(0.5).minimize(los 
S) 
with sess.as default(): 
for i in range(100): 
batch = mnist_data.train.next_batch(50) 
train_step.run(feed_dict={img: batch[0], 
labels: batch[i]}) 
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最 后 我 们 来 评估 一 下 模型 性 能 : 
from keras.metrics import categorical_accuracy as accuracy 


acc_value = accuracy(labels, preds) 
with sess.as default(): 
print acc value.eval(feed dict-(img: mnist data.test.images, 
labels: mnist data.test.labe 


1s}) 


我 们 只 是 将 Keras 作 为 生成 从 tensor 到 tensor 的 函数 (op) 的 快捷 方法 而 已 ， 优 化 过 
程 完 全 采用 的 原生 tensorflow 的 优化 器 ， 而 不 是 Keras 优 化 器 ， 我 们 压根 不 需要 
Keras 的 Model 


关于 原生 TensorFlow 和 Keras 的 优化 器 的 一 点 注 记 : 虽然 有 点 反 直 觉 ， 但 Keras 的 优 
化 器 要 比 TensorFlow 的 优化 器 快 大 概 5-10%。 虽然 这 种 速度 的 差异 基本 上 没什么 差 
别 o 


训练 和 测试 行为 不 同 
有 些 Keras 层 ， 如 BN，Dropout， 在 训练 和 测试 过 程 中 的 行为 不 一 致 ， 你 可 以 通过 
打印 layer.uses_learning_phase 来 确定 当前 层 工 作 在 训练 模式 还 是 测试 模式 。 


如 果 你 的 模型 包含 这 样 的 层 ， 你 需要 指定 你 希望 模型 工作 在 什么 模式 下 ， 通 过 
Keras 的 backend 你 可 以 了 解 当 前 的 工作 模式 : 


from keras import backend as K 
print K.learning phase() 


向 feed dict? 47321 (MARA) RO (测试 模式 ) 即 可 指定 当前 工作 模式 : 


# train mode 
train_step.run(feed dict={x: batch[0], labels: batch[i], K.learn 
ing_phase(): 1}) 


例如 ， 下 面 代 码 示范 了 如 何 将 Dropout 层 加 入 刚才 的 模型 中 : 


from keras.layers import Dropout 
from keras import backend as K 


img = tf.placeholder(tf.float32, shape=(None, 784)) 
labels = tf.placeholder(tf.float32, shape=(None, 10)) 


Dense(128, activation='relu' )(img) 
Dropout (0.5)(x) 

Dense(128, activation='relu' )(x) 
Dropout(0.5)(x) 

preds = Dense(10, activation='softmax')(x) 


x x x x 
ll 


loss = tf.reduce mean(categorical crossentropy(labels, preds) ) 


train step = tf.train.GradientDescentOptimizer(0.5).minimize(los 
S) 
with sess.as default(): 
for i in range(100): 
batch = mnist_data.train.next_batch(50) 
train_step.run(feed_dict={img: batch[0], 
labels: batch[i], 
K.learning phase(): 1}) 


acc value - accuracy(labels, preds) 
with sess.as default(): 
print acc value.eval(feed dict-(img: mnist data.test.images, 
labels: mnist data.test.labe 
ls, 
K.learning phase(): 0}) 


与 变量 名 作用 域 和 设备 作用 域 的 兼容 
Keras 的 层 与 模型 和 tensorflow 的 命名 完全 兼容 ， 例 如 : 
x = tf.placeholder(tf.float32, shape=(None, 20, 64)) 


with tf.name_scope('block1'): 
y = LSTM(32, name='mylstm' )(x) 


我 们 LSTM 层 的 权重 将 会 被 命名 为 block1/mylstm_W _i, block1/mylstm_U, 等 .. 类 似 
的 ， 设 备 的 命名 也 会 像 你 期 望 的 一 样 工作 : 


with tf.device('/gpu:0'): 

x = tf.placeholder(tf.float32, shape=(None, 20, 64)) 

y = LSTM(32)(x) # all ops / variables in the LSTM layer wil 
1 live on GPU:9 


与 Graph 的 作用 域 兼容 


任何 在 tensorflow 的 Graph 作用 域 定义 的 Keras 层 或 模型 的 所 有 变量 和 操作 将 被 生成 
为 该 Graph 的 一 个 部 分 , 例 Jm ? Fw 的 代码 将 会 以 你 所 期 Z 的 形 式 工 作 


from keras.layers import LSTM 
import tensorflow as tf 


my graph = tf.Graph() 
with my graph.as default(): 
x = tf.placeholder(tf.float32, shape=(None, 20, 64)) 
y = LSTM(32)(x) # all ops / variables in the LSTM layer are 
created as part of our graph 


与 变量 作用 域 兼容 


变量 共享 应 通过 多 次 调用 同样 的 Keras 层 或 模型 来 实现 ， 而 不 是 通过 TensorFlow 的 
变量 作用 域 实 现 。TensorFlow 变 量 作 用 域 将 对 Keras 层 或 模型 没有 任何 影响 。 更 多 
Keras 权 重 共 享 的 信息 请 参考 这 里 


Keras 通 过 重用 相同 层 或 模型 的 对 象 来 完成 权 值 共享 ， 这 是 一 个 例子 : 


# instantiate a Keras layer 
lstm = LSTM(32) 


4 instantiate two TF placeholders 
tf.placeholder(tf.float32, shape-(None, 20, 64)) 
tf.placeholder(tf.float32, shape-(None, 20, 64)) 


# encode the two tensors with the *same* LSTM weights 
x encoded = lstm(x) 
y encoded = lstm(y) 


收集 可 训练 权重 与 状态 更 新 


某 些 Keras 层 ， 如 状态 RNN 和 BN 层 ， 其 内 部 的 更 新 需要 作为 训练 过 程 的 一 步 来 进 
行 ， 这 些 更 新 被 存储 在 一 个 tensor tuple 里 : layerupdates， 你 应 该 生成 assign 操 作 
来 使 在 训练 的 每 一 步 这 些 更 新 能 够 被 运行 ， 这 里 是 例子 : 


from keras.layers import BatchNormalization 
layer = BatchNormalization()(x) 


update_ops = [] 
for old_value, new_value in layer.updates: 
update_ops.append(tf.assign(old_value, new_value) ) 


注意 如 果 你 使 用 Keras 模 型 ，model.updates 将 与 上 面 的 代码 作用 相同 〈 收 集 模型 中 
所 有 更 新 ) 

另外 ， 如 果 你 需要 显 式 的 收集 一 个 层 的 可 训练 权重 ， 你 可 以 通 

layer.trainable weights 来 实现 ， oe ee UN ， 它 是 一 个 
tensorflow 变 量 对 象 的 列表 : 


from keras.layers import Dense 


layer = Dense(32)(x) # instantiate and call a layer 
print layer.trainable_weights # list of TensorFlow Variables 


这 些 东 西 允许 你 实现 你 基于 TensorFlow 优 化 器 实现 自己 的 训练 程序 


使 用 Keras 模 型 与 TensorFlow 协 作 


将 Keras Sequential 模 型 转换 到 TensorFlow 中 


假如 你 已 经 有 一 个 训练 好 的 Keras 模 型 ， 如 VGG-16， 现 在 你 想 将 它 应 用 在 你 的 
TensorFlow 工 作 中 ， 应 该 怎么 办 ? 


首先 ， 注 意 如 果 你 的 预 训练 权重 含有 使 用 Theano 训 练 的 卷 积 层 的 话 ， 你 需要 对 这 


权重 的 卷 积 核 进 行 转换 ， 这 是 因为 Theano 和 TensorFlow 对 卷 积 的 实现 不 同 ， 
TensorFlow 和 Caffe 实 际 上 实现 的 是 相关 性 计算 。 点 击 这 里 查看 详细 示例 。 


些 


假设 你 从 下 面 的 Keras 模 型 开始 ， 并 希望 对 其 进行 修改 以 使 得 它 可 以 以 一 个 特定 的 
tensorflow 张 量 my_input tensor 为 输入 ， 这 个 tensor 可 能 是 一 个 数据 feeder 或 别 的 


tensorflow 模 型 的 输出 


# this 1S our initial Keras model 

model = Sequential() 

first layer = Dense(32, activation-'relu', input dim-784) 
model.add(Dense(10, activation-'softmax!')) 


你 只 需要 在 实例 化 该 模型 后 ， 使 用 set input k 47 a K BMA REKATA E 
建 于 其 上 : 
# this is our modified Keras model 


model = Sequential() 
first layer = Dense(32, activation='relu', input_dim=784) 
first layer.set input(my input tensor) 


# build the rest of the mode! 
model.add(first_layer ) 
model.add(Dense(10, activation='softmax' )) 


在 这 个 阶段 ， 你 可 以 调用 model.load_weights(weights file) 来 加 载 预 训练 的 权重 


Ies 
然后 ， 你 或 许 会 收集 该 模型 的 输出 张 量 : 


je 


output_tensor = model.output 


对 TensorFlow 张 量 中 调用 Keras 模 型 


Keras 模 型 与 Keras 层 的 行为 一 致 ， 因 此 可 以 被 调用 于 TensorFlow 张 量 上 : 


from keras.models import Sequential 


model = Sequential() 
model.add(Dense(32, activation-'relu', input dim-/84)) 


model.add(Dense(10, activation='softmax' )) 


# this 


works! 


x = tf.placeholder(tf.float32, shape=(None, 784)) 
y = model(x) 


注意 ， 调 用 模型 时 你 同时 使 用 了 模型 的 结构 与 权重 ， 当 你 在 一 个 tensor 上 调用 模型 
时 ， 你 就 在 该 tensor 上 创造 了 一 些 操作 ， 这 些 操作 重用 了 已 经 在 模型 中 出 现 的 
TensorFlow È © 85 xd & 


多 GPU 和 和 分布 式 训练 


将 Keras 模 型 分 散在 多 个 GPU 中 训练 


TensorFlow 的 设备 作用 域 完 全 与 Keras 的 层 和 模型 兼容 ， 因 此 你 可 以 使 用 它们 来 将 
一 个 图 的 特定 部 分 放 在 不 同 的 GPU 中 训练 ， 这 里 是 一 个 简单 的 例子 : 


with tf. 


y = 


device('/gpu:0'): 
tf.placeholder(tf.float32, shape=(None, 20, 64)) 
LSTM(32)(x) # all ops in the LSTM layer will live on GP 


. device('/gpu:1'): 


tf.placeholder(tf.float32, shape=(None, 20, 64)) 
LSTM(32)(x) # all ops in the LSTM layer will live on GP 


注意 ， 由 LSTM 层 创建 的 变量 将 不 会 生存 在 GPU 上 ， 不 管 TensorFlow 变 量 在 哪里 创 
建 ， 它 们 总 是 生存 在 CPU 上 ，TensorFlow 将 隐 含 的 处 理 设备 之 间 的 转换 


如 果 你 想 在 多 个 GPU 上 训练 同一 个 模型 的 多 个 副本 ， 并 在 多 个 副本 中 进行 权重 共 
享 ， 首 先 你 应 该 在 一 个 设备 作用 域 下 实例 化 你 的 模型 或 层 ， 然 后 在 不 同 GPU 设 备 的 
作用 域 下 多 次 调用 该 模型 实例 ， 如 : 


with tf.device('/cpu:0'): 
x = tf.placeholder(tf.float32, shape=(None, 784)) 


# shared model living on CPU:O 

4 it won't actually be run during training; it acts as an op 
template 

4 and as a repository for shared variables 

model - Sequential() 

model.add(Dense(32, activation-'relu', input dim-784)) 

model.add(Dense(10, activation='softmax')) 


4 replica 0 
with tf.device('/gpu:0'): 

output 9 = model(x) # all ops in the replica will live on G 
PU:0 


# replica 1 
with tf.device('/gpu:1'): 

output 1 = model(x) # all ops in the replica will live on G 
PU:1 


# merge outputs on CPU 
with tf.device('/cpu:0'): 


preds = 0.5 * (output 0 + output 1) 


4 we only run the ‘preds tensor, so that only the two 
4 replicas on GPU get run (plus the merge op on CPU) 
output value = sess.run([preds], feed dict={x: data}) 


分 布 式 训练 


通过 注册 Keras 会 话 到 一 个 集群 上 ， 你 可 以 简单 的 实现 分 布 式 训练 : 


server = tf.train.Server.create local server() 
sess - tf.Session(server.target) 


from keras import backend as K 
K.set session(sess) 


关于 TensorFlow 进 行 分 布 式 训练 的 配置 信息 ， 请 参考 这 里 


使 用 TensorFlow-serving 导 出 模型 


TensorFlow-Serving 是 由 Google 开 发 的 用 于 将 TensoFlow 模 型 部 署 于 生产 环境 的 工 
a 


FN 


任何 Keras 模 型 都 可 以 被 TensorFlow-serving 所 导出 (只 要 它 只 含有 一 个 输入 和 一 个 
输出 ， 这 是 TF-serving 的 限制 ) ， 不 管 它 是 否 作为 TensroFlow 工 作 流 的 一 部 分 。 事 
实 上 你 甚至 可 以 使 用 Theano 训 练 你 的 Keras 模 型 ， 然 后 将 其 切换 到 tensorflow 后 

端 ， 然 后 导出 模型 


如 果 你 的 graph 使 用 了 Keras 的 learning phase (在 训练 和 测试 中 行为 不 同 ) ， 你 首 
先 要 做 的 事 就 是 在 graph 中 硬 编码 你 的 工作 模式 ( 设 为 0， 即 测试 模式 ) ， 该 工作 通 
过 1) 使 用 Keras 的 后 端 注 册 一 个 learning phase 常 量 ，2) 重新 构建 模型 ， 来 完成 。 


这 里 是 实践 中 的 示范 : 


from keras import backend as K 


K.set_learning_phase(0) # all new operations will be in test mo 
de from now on 
# serialize the model and get its weights, for quick re-building 


config = previous model.get config() 
weights - previous model.get weights() 


# re-build a model where the learning phase is now hard-coded to 
0 

from keras.models import model_from_config 

new_model = model_from_config(config) 
new_model.set_weights(weights) 


现在 ， 我 们 可 使 用 Tensorflow-serving 来 导出 模型 ， 按 照 官 方 教程 的 指导 : 
from tensorflow_serving.session_bundle import exporter 


export_path = ... # where to save the exported graph 
export_version = ... # version number (integer) 


saver = tf.train.Saver(sharded=True) 
model exporter = exporter .Exporter (saver) 
Signature = exporter.classification_signature(input_tensor=model 
.Input， 
Scores_tensor=mode 
l.output) 
model exporter.init(sess.graph.as. graph def(), 
default graph signature-signature) 
model exporter.export(export path, tf.constant(export version), 
sess) 


如 想 看 到 包含 本 教程 的 新 主题 ， 请 看 我 的 Twitter 
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